Indexujete obsah svého systému? (diskuse)

Nie je lepšie mať poriadok na disku než indexovať?

LinuxOS.sk | USE="-fotak -zbytocnosti -farebne_lcd +vydrz +odolnost +java" emerge telefon

5.10.2009 11:51 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jakmile začíná doba vykonání příkazu "kde by do háje asi tak ten soubor mohl být?" přesahovat několik stovek milisekund, je nejvyšší čas si udělat na disku pořádek. Já jsem ale liný, takže si radši koupím nový disk, nainstaluju nový systém a ze starého přetáhnu důležitá data. Starý disk do šuplíku a rázem je záloha hotová :-)

(tím se mimo jiné řeší i problém lenosti cokoli zálohovat)

5.10.2009 16:39 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

A člověk tak rázem přijde na to, že nejméně 99 % těch dat vůbec nepotřebuje ;-)

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

5.10.2009 12:11 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Je to lepší, ale třeba pro mě zcela nemožné.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

8.10.2009 15:15 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Neni. Pořádek se musí udržovat. Index slov udržuje Beagle sám.

Pokud není denní uklízení vaše hobby a máte vetší než malé množství dokumentů (ne vaší vinou) v různých formátech na disku pak je desktop serch jasná volba.

9.10.2009 18:04 mirec | skóre: 32 | blog: mirecove_dristy | Poprad
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Mám množstvo dokumentov primerané tomu, čo robím (pár tisíc väčšinou PDF), logicky usporiadané, keď niečo stiahnem tak to uložím do logickej štruktúry (nie neupratujem každý deň, vlastne v podstate nidky, poriadok udržiavam priebežne).

LinuxOS.sk | USE="-fotak -zbytocnosti -farebne_lcd +vydrz +odolnost +java" emerge telefon

15.10.2009 22:10 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Tak jsem to taky tak dělal. Minulý čas. V praxi jsem narazil následující problémy:

Máte oskenovanou účtenku, zařadíte to spíše do "dokumenty/účty/scan", "dokumenty/scan/účty", "dokumenty/scan/účty/dodavatelA", "dokumenty/dodavatelA/scan/účty/", a tak dále. Neexistuje podle čeho objektivně rozhodnout. Ǔčtenka je jak dokumentem, skenem, tak i účtem. Klasický multihlediskový problém. Můžete to nějak geniálně ošéfovat symbolickými linky, ale to je zase náročnější na údržbu.

Jak pojmenovat dokument. Máte dokument s výpisky s relativně širokým záběrem - Java, JBoss, J2EE. Napadne vás i po měsíci, že ten dokument obsahuje i informace o AOP a AspectJ? Napadne vás to i po roce?

Pokud vám přijde nový druh dokumentu, který nejde zařadit do stávajícího třídění, musíte strávit nějaký čas přemýšlením, kam s ním. Vymyslet něco, podle čeho ho znova najdete i po nějaké době.

Jak najdete něčí telefonní číslo, o kterém víte jen to, že jste si ho na sto procent někam poznamel, bohužel, do jinak vzorně vedeného souboru čísel, to nebylo.

Žijeme v proměnlivém světě. Originální třídící a pojmenovávací systém, onehdy považovaný geniální, se po čase může ukázat nevyhovující, například začne převládat jiný typ dokumentů, než se čkalo a vás čeká dilema zda hromadně reorganizovat (ztráta času, problémy s archivací..) nebo zavést paralelní nekompatabilní systém, vyznat se v tom a nezblbnout. Já osobně jsem si několikrát myslel, že jsem konečně přišel definitivní systém, tohle už obsáhne všechno, a vždycky se ukázalo, že jsem se mýlil.

16.10.2009 10:21 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Pokud odhlédnu od toho, že mám doma na disku spíš velký chaos, než nějakou hierarchii, tak bych to uložil do ~/dokumenty/domaci-finance/uctenka-komoda-loznice.png

BTW by mne fakt děsně zajímalo, jak mi pomůže třeba Google Desktop při hledání oskenované účtenky, kterou jsem si blbě pojmenoval a uložil. A také nevím, proč bych měl ukládat oskenované věci do samostatného adresáře a komplikovat si tím život. To bych si mohl dělat samostatné adresáře pro odt, ods, doc, xls, pdf, jpg, png, tiff… až bych z toho úplně zmagořil.

Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.

17.10.2009 20:33 Drom | skóre: 24 | Kdyne
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

+1 od toho BTW

23.10.2009 14:41 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

> mám doma na disku spíš velký chaos, než nějakou hierarchii

Já reagoval na mirece, ten uvádí, že má logickou hierarchii, žádný chaos. Tak z něj tahám know-how. Chaos umím vyrobit taky a snadno, takže v tom mi asi neporadíte :)

> ~/dokumenty/domaci-finance/uctenka-komoda-loznice.png

Snadné jen na první pohled. Předpokládejmě, že chcete uložit právě koupenou letenku, webová stránka. Lze to považovat za domácí finance? Ano i ne, jak se na to podíváte. A pokud se pro jednu variantu rozhodnete, budete si to pamatovat a aplikovat stejně i za týden, měsíc, rok?

> hledání oskenované účtenky

Pochválen buď za každou účtenku která dojde jako PDF ;) Bohužel, je jich menšina. Vkládám text k obrázkům, jde toho tam naházet víc než do názvu a pořadí není důležité, desktop search si to najde. Hlavně aby tam bylo datum, firma, státní orgán, pár klíčových slov. Bohužel, je s tím spojená nějaká manuální práce ale i při tom DS pomáhá. Jinak čekám jak na smilování na použitelný integrovaný OCR systém do vyhledávače. U Beagle o ničem takovém nevím, ale snad v rámci Nepomuku se něco chystá, ale teď nemohu najít odkaz.

Navíc, důležité transakce si i slovně zapisuji. Přidávám poznámky které na účtence ani nemohou být. Snažím se o jednu přehlednou Calc tabulku, ale realita je někdy složitější. A zase mě z toho tahá DS.

> A také nevím, proč bych měl ukládat oskenované věci do samostatného adresáře a komplikovat si tím život.

Kvůli archivaci! Dokumenty archivuji podstatně častěji, scany jsou o větších objemech dat a navíc, uchovávám i originál, musím. Dokumenty jsou většinou originály. Dokumenty se častěji mění, připisuje se do nich, přejmenovávají, dělí, spojují. Já si tím usnadňuji život.

23.10.2009 20:52 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Nebudu reagovat podrobně, jen zkonstatuji, že vaše argumenty mají logiku, takže je beru a omlouvám se za předchozí cynický tón. (Ale stejně doma žádný indexovač používat nebudu ;-)

- akorát si vždy jednou za čas dělám v "domečku" pořádek, když zjistím, že už tam mám příliš velký binec :-)

)

Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.

Ke štěstí mi úplně stačí locate

5.10.2009 10:07 Non_E | skóre: 24 | blog: hic_sunt_leones | Pardubice
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Přesně to stačí i mně :-)

Only Sith deals in absolutes.

5.10.2009 11:57 unknown_ | skóre: 30 | blog: blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

+1. nechapu jaka lama to v ankete opomnela...

5.10.2009 18:32 Zopper | skóre: 15
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jak se koukám na uvedené programy, je zřejmě myšleno indexování obsahu, nikoliv jen seznamu souborů.. Jinak +1 k locate

"Dlouho ještě chcete soudit proti právu, stranit svévolníkům?" Ž 82,2

5.10.2009 18:49 unknown_ | skóre: 30 | blog: blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Aha, tak to se omlouvam

5.10.2009 12:16 houska | skóre: 41 | blog: HW
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

5.10.2009 13:54 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

slocate

5.10.2009 14:38 AsciiWolf | skóre: 41 | blog: Blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

5.10.2009 15:25 Libor Chocholaty | skóre: 12
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Presne tak, me taky :-)

6.10.2009 09:25 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jojo, konkrétně mlocate je fajn.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

6.10.2009 15:24 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.

8.10.2009 15:01 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jestli vám locate tak jste opravdu šťastlivec. Buď si poznámky si píšete na papír a vyhoje vám to, nemusíte denně zápasit s haldou dokumentů, nebo máte geniální systém třídění dokumentů na disku. Pak nebuďte soukromník a podělte se o zkušenosti.

Pokud vám stačí locate, pak vám stačí vyhledávat podle názvu souboru, tak to vám gratuluju. Pokud se nemýlím locate je jen kešovanou verzí findu a obsah souboru nedokáže naindexovat. Takže potřebujete mít všechna relevatní klíčová slova přímo v názvu souboru, geniální pamět, geniální systém třídění dokumentů nebo (nejlépe) nemít moc dokumentů.

První věc, co na novém linuxovém desktopu vypínám je všemožné indexování. To je snad ještě horší mor než automatické testy AVG na školních počítačích. Doteď jsem nějak nepochopil, k čemu by mi takové indexování bylo. Zatím mi stačí find, příp. locate a nic jiného ani nehledám.

5.10.2009 13:56 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

První věc, co na novém linuxovém desktopu vypínám je všemožné indexování. - Zatím mi stačí ... locate

ehm ...

5.10.2009 15:05 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Locate ale indexuje jen když chci já, ne automaticky. Stejně většinou spíš používám ten find :-)

6.10.2009 13:08 Nicco | skóre: 9
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Rozdiel je v tom, ze ked mas 30GB dat na disku (maily, pdf, office, txt, logy, ...) a potrebujes najst nieco specificke. Spustis find... -exec grep .... a cakas 30 minut. Vysledok ziaden, tak zmenis kluc ktory hladas a spustis find znova. Cakas 30 minut a nic atd.

Ale ked mas index, to stlacim napr ctrl+g, vyskoci mi okno a pisem, co chcem najst a uz mi to hned doplnuje, pripadne dam zobrazit vsetko a hned za 3 sec mam vysledky pred sebou. Neuveritelny pommosnik vo firmach, ktore musia dodrziavat SLA.

6.10.2009 15:32 NeoV | skóre: 23
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Hmm tak to mi potom musis poradit.... Presne rovnake dovody pre indexovanie som mal aj ja - na firemnom notase pod widlami som pouzival Google Desktop - nakoniec som ale prisiel nato, ze okrem toho ze mi zozral 2GB na Ccku mi nijak nevie pomoct - neovlada regexy - neovlada ani len obycajne stringy so specialnymi znakmi "&", "|", "~", atd... najcastejsie som totiz potreboval dohladat casti kodu (ked som zabudol kde som ho napisal...). No aj tak mi nikdy nic poriadne nevedel dohladat. Tak naco mi to je ? :-)

Mozno som len zvolil nespravnu aplikaciu...

6.10.2009 15:56 Nicco | skóre: 9
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Tak mne zakladne regexp idu, samozrejme Perl to nie je:

Napriklad zadam: "A*C" a najde to ABC, AaC, ...

Specialne znaky GDS nevie, ale mne to staci, hladam iba cele slova. S hldanim kodu, to moze byt problem.

6.10.2009 22:30 Vykook | skóre: 23 | blog: Tomas
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

To bude nejspis tim, ze jsi se nesetkal s nejakym poradnym a funkcnim indexovanim. Mimochodem, jak pomoci find nebo locate najdes ebook, napriklad o Jave, v kterem se nejvic pise treba o junit testech? hm?

Nejde nám o dobro druhých. Nejde nám o bohatství. Jde o čisté opojení mocí.

6.10.2009 23:55 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Nesmyslná diskuze, na to není potřeba ani find, ani locate, je to stejné jako hledat v mobilu kontakt na holiče. Někdo na to potřebuje smartphone s vyhledáváním, někdo prostě rovnou nalistuje to správné jméno.

8.10.2009 16:28 Vykook | skóre: 23 | blog: Tomas
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Tak to se omlouvam, netusil sem ze je mezi nama Buh co si pamatuje kompletni obsah treba 50 ebooku tykajicich se stejne oblasti. Ted me prosim omluvte, jdu na dvorek postavit oltar...

Nejde nám o dobro druhých. Nejde nám o bohatství. Jde o čisté opojení mocí.

8.10.2009 20:10 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Tak ne každej si přitáhne na disk 50 podobných ebooků které ani nečet :D To je prostě ten odlišnej přístup o kterém jsem mluvil. Byly doby, kdy měli lidé doma tisíce knih, a když jste se jich na něco z některé z nich zeptal, tak prostě šli, a vytáhli ji. Protože knihy kupovali, četli, ukládali do knihoven. Dneska lidi "stahujou ebooky", maj jich pak 50 ke stejnému tématu, nečetli ani jeden, pak se samozřejmě fulltext hodí, když v nich hledají něco, o čem neví jestli to tam je nebo ne. Ale nedělají to tak všichni.

8.10.2009 20:26 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

A jak že to používáte referenční příručky? A proč že to odborné knihy mívají rejstřík? Ach, odlišnej přístup, že.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

8.10.2009 23:48 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jistě, rozlišuji "výběr knihy" a "nalezení obsahu v knize". Díky své inteligenci ;) a jistým neopomenutelným znalostem dokumentů stažených z internetu na lokální disk ;D jsem schopen predikovat (pro vás to bude možná magie) konkrétní referenční příručku, ve které budu následně schopen (fulltextově) najít hledaný obsah. Vím, může to znít jako šarlatánství ;), ale tenkrát před vynálezem Google to tak někteří lidé fakt dělali ;) ;)

Dřív bylo běžné heslo "musíte toho hodně vědět a znát", pak přišlo "nemusíte nic znát, stačí vědět, kde to najít", a někteří to dotahují do dokonalosti současným "nemusíte nic vědět ani znát, ani vědět kde to najít, stačí když znáte člověka nebo nástroj, který vám to nalezne za vás". Ale není to jediný přístup. Pokud máte základní znalost báze dat, ve které informace hledáte, nemusíte prohledávat a indexovat úplně všechno v dosahu (knihy, deníček, sms archiv mobilu přítelkyně, svůj očkovací průkaz, návod na přípravu kolínek na sáčku těstovin), stačí vám prohledat konkrétní dokument či knihu. Tu konkrétní knihu jste schopen najít právě na základě znalosti té báze dat. Jasný? ;) ;) ;)

9.10.2009 09:14 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Není mi to jasný :-)

Teda není mi jasnej rozdíl mezi prohledáváním knihy a prohledáváním archivu knih. Pokud budete mít v knihovně takovej bordel, jako někteří lidi na disku, tak vám nepomůže ani svěcená voda, ale na počítači se to dá zachránit.

Tedy slovo zachránit vyjadřuje jeden extrém, na opačném konci je možný názor, že pevné strukturování je přežitek. Faktem zůstává, že moderní poznatky z oblasti information retrieval umožňují strukturování mnohem volnější (což má svoje výhody: když kniha patří do dvou kategorií, v knihovně máte smůlu, v adresářové struktuře si možná vyrobíte symlink, s indexováním obsahu to vůbec nemusíte řešit) a nádavkem takové věci, jako automatické zodpovídání dotazů (cha, to by byla killer fíčura pro desktopové vyhledávání!) a podobně.

Pokud se umisťujete do toho prvního extrému, vaše věc, ale ten povýšený postoj tomu příliš nesluší :-)

Ještě na tom nejsem tak špatně, abych četl Viewegha.

9.10.2009 09:28 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ten rozdíl je ten, že lidé si sice zpravidla nepamatují, jak přesně vypadá nějaká česká bankovka, ale mnoho lidí ví, kde má peněženku. To jsou prostě informace, které si lidé zapamatovat schopni jsou. Takže pokud chtějí vědět, jak přesně vypadá nějaká bankovka, nemusí mít obsah peněženky indexovaný, protože místo prohledávání indexu jdou, vyndají peněženku, a podívají se.

Jiní lidé zase ví, kde mají ručník, takže když se chtějí osušit, sáhnou na věšák na ručníky, nemusí hledat v indexu, kde je nějaký ručník. V indexu by sice nepochybně našli ručník na věšáku, ale také by tam našli spoustu ručníků ve skříni, pár pamětních s vyšitým monogramem v truhle na půdě po babičce a jeden který používají jako hadr na podlahu. Tento dynamický seznam, který by předem nedokázali jednoduše vygenerovat, by si museli okem prohlédnout, a mezi těmi všemi ručníky by následně museli vybírat ten správný. Což je unavující asi jako MS Ribbon. Proto raději svá data neindexují, a dají přednost pamatovat si, kde co mají.

9.10.2009 09:38 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

S rozumným vyhodnocováním relevance na první pozici dostanete ručník na věšáku a hotovo. A když na to přijde, můžete ten ručník dostat přímo pod nos, místo toho, abyste si pro něj musel chodit do koupelny. Tož tak.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

9.10.2009 12:00 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Někdy ale na prvním místě dostanete něco jiného, takže obezřetnost je stále nutná, a někteří lidé prostě nemají rádi tu nejistotu :) Pod nos ručník dostanete, ale taky to chviličku trvá, podobně jako dojít do koupelny, časovou kauzalitu nevošidíte a odpovědi na otázky nezískáte dřív, než je položíte.

A navíc to budete mít všecičko úúplně zadarmo dědo. Vlastně dneska máme ještě akci, takže na to dostanete ještě 10% slevu. Tak to máme ale štěstíčko, co? Jenom mi to tadydle podepište...

9.10.2009 12:10 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

No jo, nejistota. A co když vám manželka (staří mládenci si dosadí maminku nebo hospodyni) ten ručník z věšáku sundala, protože ho hodlá vyprat, a nezvedení potomci v knihovně knížky rozházeli, a vůbec všecko. Tohle už mě nebaví. Mimochodem desktopové vyhledávání nepoužívám, ale to mi nebrání vidět jeho účel.

Jo a jestli vás baví zesměšňovat směšná přirovnání, která jste sám vymyslel, tak vám samozřejmě nehodlám bránit :-)

Ještě na tom nejsem tak špatně, abych četl Viewegha.

9.10.2009 17:49 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ano proto jsem tam zdůraznil to "svá" data, tedy něco co nikdo nikam náhodně přesunovat nebude. Odlišný případ je pak když někdo pracuje s cizími daty, nebo větším množství pracovních dokumentů a podobně. Ono když přeházím již zaindexovaná data na disku mezi jednotlivými indexováními, tak by to pak mohlo být také o něco hůř použitelné, ale řekněme že mezní případy (všetečné dítko či sjetý admin) nebudeme uvažovat :)

9.10.2009 00:23 Vykook | skóre: 23 | blog: Tomas
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jasne, ne kazdy to tak dela, ale ja si zkratka amoralne stahnu ebooky, a pak pres spotlight hledam slova. Mluvit o tom jako o nesmyslu je ale velmi prehnane.

Nemluve o tom, ze zmacknout klavesovou zkratku, napsat "karel n", "zivotopis" ci"1+1" a odbouchnout enterem, je rychlejsi nez poustet prislusnou aplikaci a resit to v ni. Chapu ale ze ne kazdymu to sedi, nekdo rad holky a jinej zas vdolky ;-)

Nejde nám o dobro druhých. Nejde nám o bohatství. Jde o čisté opojení mocí.

Rád bych se zeptal na trochu jinou věc, přesto související. Nevíte někdo náhodou o nějakém databázovém (tagovém) souborovém systému. To by bylo na klíčová slova nejlepší... žádné vyhledávání :-) .

7.10.2009 17:00 Kvakor
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ano. Microsoftí WinFS a GNOME Storage. Druhé jmenované je mrtvé už několik let a to první pravděpodobně postihne osud hry Duke Nukem Forever ...

7.10.2009 17:07 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Dneska už je totiž Zeitgeist.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

7.10.2009 17:21 Kvakor
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

A tucet dalších indexovačů .... Prostě se to ze záležitosti souborového systému (kde to podle mně stejne nemá co dělat) přesunulo do aplikační vrstvy.

7.10.2009 17:32 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Podívej se o čem Zeitgeist je. Také o tagování, ne jen indexování.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

8.10.2009 21:38 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Podívej se o čem Zeitgeist je.

No, nejdřív tam nějaký pán mluvil o bohu a o ďáblu, pak tam ukazovali nějaká letadla, která narazila do dvou věží, pak se třetí budova kus od těch věží sesula a pak tam bylo něco o takových malých zelených papírcích... :-D

8.10.2009 23:35 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

To doufám nemá nic společnýho s GNOME 3 :-)

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

8.10.2009 09:55 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Rád bych se zeptal na trochu jinou věc, přesto související. Nevíte někdo náhodou o nějakém databázovém (tagovém) souborovém systému. To by bylo na klíčová slova nejlepší... žádné vyhledávání .

výše zmíněný BFS nevyhovuje?

8.10.2009 15:10 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jenže takový systém musíte aktivně udržovat = moc práce. Index klíčových slov se udržuje sám. Mě statčí, že musím indexovat forky. Kdyby tak existoval indexer obsahu fotek a já jen mohl zadat "najdi já pohled zepředu" to by bylo super!

11.10.2009 15:23 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Picasa?

Plesk! | Population | Industry

Ano, soubory mi indexuje Windows Search. Je to rychlé, nezdržuje to při práci a výsledky hledání jsou okamžité, je to integrované do správce souborů i nabídky start. Lze hledat pomocí regexů, nastavovat spousty kritérií včetně metadat a pod. Beagle, Strigi i Google Desktop jsou proti němu šneci s někdy i nesmyslnými výsledky.

Věřím v jednoho Boha.

8.10.2009 15:07 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

No jestli Beagle necháváte prohledávat /dev/random tak to je možné že ještě neskončil :) Jinak si vaše závěry ohledně Beagle nedovedu vysvětlit.

8.10.2009 17:43 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ja si ty nesmyslne vysledky vysvetlit dovedu, jednoduse neznalost urciteho programu. Pochybuju, ze M$ program pouziva stejny zapis regexu jako Beagle apod., dokonce i v linuxu jsou mezi jednotlivymi programy nekdy znatelne rozdily v zapisu.

GNUniverse - May the source be with you...

9.10.2009 14:19 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ja dost pochybuji že Beagle (a podobné) vůbec regex podporují. Nepleťte si prosím grep a desktop search (beagle). Dost pochybuji, že MS Indexing Service regex podporuje. V desktop search nemá RE smyls. Řada příkazů RE nemá v inverzním indexu smysl, například konec a začátek řádky, u dokumentu to samé, v dokumentech ODF, PDF, HTML, .. je řádek dynamická věc, záleží na roztažení okna nebo nastavení tiskárny. Speciální znaky (&,_,*) nadbytečné mezery, white space, se z indexu vyhazují, jde o surový text, o pojmy ne o stringy!

U desktop search programu jsou důležité jiné věci:

automatický stemming - to je o gramamtice, Beagle má EN gramatiku, u češtiny vůbec pochybuji že něco takového lze udělat ("dance" will also match documents containing the words "dances", "dancing", and "dancer")

pravostranné a levostranné rozšíření - "black*" o find words like "black", "blackbird", and "blacksmith"

NEAR operátor - slova od sebe nesmí být dále než zadaný počet slov, luxusní výbava, velmi užitečné v dlouhých dokumentech, mám podezření, že Beagle nezvládá i když Lucene pro to podporu má, škoda.

exclude, NOR, OR, grupování - no to je jasné, to umí snad všechni

váhy - slovo v nadpisu má větší váhu než slovo v normálním textu, zvyšuje relevanci dokumentu. Také asi Beagle neumí. Vyžaduje pokročilé analyzéry textu binárních dokumentů.

atd. atd. snažil jsem se alespoň naznačit, o co v desktop search jde a že tam RE nemají moc užitek.

9.10.2009 16:03 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

u češtiny vůbec pochybuji že něco takového lze udělat

Stemming se velmi často dělá pouhým odtrháváním koncovek, což pro češtinu lze samozřejmě triviálně udělat taky. No a i česká morfologická analýza je v podstatě vyřešený problém.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

9.10.2009 17:47 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Máte nějaké bližší informace, odkazy, jak daleko je implementace, ideálně open source, českého stemmingu? Zase tak moc oblast nesleduji. Jednak některá slova mění i kořen, těch tolik nění, horší to je s množstvím koncovek a přiřazení správných k esprávnému slovu, pán, k páNOVI, žena, k žeNĚ a tak dále. žeNOVI je nesmyslný tvar a nemělo by to podle něj hledat. Volá to po masivní tabulce pro všechna slova. Nějak to spojit s spellcheckerem, hunspell, nebo tak, jestli to jde.

9.10.2009 18:05 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

To odtrhávání koncovek beru zpět, to není stemming (hledání gramatického kořene), to je lematizace (hledání společného podslova, které nemusí být nutně kořenem, pro účely vyhledávání často zcela dostačující) :-)

Ale ona se tahle dvě slova docela často zaměňují. Klasický morfologický analyzátor pro češtinu je ajka, to je rok 1999 :-)

Jestli je něco open-source, to netuším.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

15.10.2009 20:03 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

A používá se to někde? Zvládají desktop search produkdy MS českou stemming/lematizaci? Testoval to někdo?

8.10.2009 23:59 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Tak mi řekněte, jak v beaglu prohledáte v jednom hledání adresáře /franta/moje_projekty/tajné a /franta/ukradené_projekty/tajné (předpoklad je, že jsou indexovány). Vyhledáváte tam všechny soubory s příponou ".cpp", které obsahují text "struct __attribute__((packed))". A potom jak to samé uděláte v beaglu, aniž by byly ty adresáře indexovány a aniž byste je před hledáním do indexování přidal. Výsledky musí být rozumně zobrazeny a musí s nimi jít dělat to, co ve správci souborů, tj. drag-and-drop, kopírování, otevření, smazání, zobrazení vlastností souboru. Hledací "dotaz" musí jít uložit jako záložku, kterou lze kdykoli vyvolat v souborovém manageru a open/save dialogu.

To prostě beagle nedokáže kvůli mizerné integraci.

Věřím v jednoho Boha.

9.10.2009 13:57 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

inuri:file:///franta/moje_projekty/tajné ext:cpp

Beagle toho umí opravdu hodně. Mrkněte na http://beagle-project.org/Searching_Data

S vyhledáváním specifických C/C++/Java konstruktů to bych ani od vyhledávače dokumentů nečekal, od toho jsou IDE :) Pro Windows jich také pár povedených je. Za sebe vám mohu doporučit Eclipse CDT, to vám spolehlivě a integrovaně struct __attribute__((packed)) najde. Pohání ho stejná technologie jako Beagle - Lucene engine. Samozřejmě optimalizované pro daný počítačový jazyk.

KIO Beagle (virtuální adresář s výsledky, záložky, historie ..):
http://www.kde-apps.org/content/show.php?content=28437 ..screenshoty napoví.Většině lidí ale asi bude bohatě stačit ten defaultní klient.

9.10.2009 14:41 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Snad jen dodám: "Jdu zvracet". Jak z návrhu na Eclipse (java), tak z okna s výsledky beaglu, které vám neumožní vůbec nic ... to kio vypadá podstatně lépe, ale pro mě je nepoužitelné kvůli nepoužitelnému KDE. Od desktopového prostředí totiž vyžaduji rychlost a stabilitu a to mi KDE4 dát nemůže.

Věřím v jednoho Boha.

9.10.2009 17:57 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ale copak, alergie na kávu? To vás lituju.

Pokud jste se už vrátil ze záchoda (spláchnuto? ruce umyty?) tak jen dodávám, že KIO (Konqueror) funguje jak pod Gnome tak FluxBoxu o stále nejlepší KDE3 ani nemluvě.

Ten klient, Kerry, základní věci umí, včetně zobrazní částí textu okolo hledaných výrazů, alá google, a základní souborové operace také. To je běžné používání víc než dost.

9.10.2009 18:11 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Nefunguje, protože konqueror vyžaduje půl giga zbytečností na disku. Navíc jak jsem řekl je KDE a všechno z něj pomalé.

Věřím v jednoho Boha.

15.10.2009 19:59 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

konqueror vyžaduje kdebase a kdelibs a Qt. To těžko dá dohromady půl giga :) Moderní OS mají trochu tendenci k nenažranosti. Na druhou stranu lkát nad několika desítek MB navíc, i kdyby stovek! v době kdy si lidi kopírují na disk videa kde 1GB není míra, je trochu opožděné. Berte to vždy proporčně k uživatelským datům. KDE3 je (bylo) taky pomalé? To pak nevím jaký termín použít pro Gnome nebo Visty.

19.10.2009 10:35 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

A co vyžaduje kdebase, kdelibs a Qt, to už jste nezmínil ... to už půl giga hravě dá.

Věřím v jednoho Boha.

23.10.2009 13:55 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Alespoň jednu lokalizaci, glibc, to by mělo být tak všechno.

Bohužel balíčky mají nároky divočejší, proč je vyžadován iconset Oxygen, který stejně nepoužívám, nebo přes kdecore se tam dostane kdeunittest, huh, to už je úchylnost. Baliči zjevně nepočítají s možností, že si někdo bude chtít nainstalovat jen a jen konqueror. Asi to nebude jen problém Mandrivy.

Baličů je málo (relativně), distribucí hodně (bohužel), aplikací hodně a přibývá (naštěstí), disky se počítají na stovky terabajtů = nikdo se s jednotlivými megabajty babrat nebude.

Ale třeba ti někdo takový minimalistický balíček vyrobí, když jsi tu tak populární :)