Portál AbcLinuxu, 12. května 2025 01:16

Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
mirec avatar 5.10.2009 09:24 mirec | skóre: 32 | blog: mirecove_dristy | Poprad
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Nie je lepšie mať poriadok na disku než indexovať?
LinuxOS.sk | USE="-fotak -zbytocnosti -farebne_lcd +vydrz +odolnost +java" emerge telefon
5.10.2009 11:51 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
+1

Jakmile začíná doba vykonání příkazu "kde by do háje asi tak ten soubor mohl být?" přesahovat několik stovek milisekund, je nejvyšší čas si udělat na disku pořádek. Já jsem ale liný, takže si radši koupím nový disk, nainstaluju nový systém a ze starého přetáhnu důležitá data. Starý disk do šuplíku a rázem je záloha hotová :-) (tím se mimo jiné řeší i problém lenosti cokoli zálohovat)
Luk avatar 5.10.2009 16:39 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
A člověk tak rázem přijde na to, že nejméně 99 % těch dat vůbec nepotřebuje ;-)
Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly
5.10.2009 12:11 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Je to lepší, ale třeba pro mě zcela nemožné.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
8.10.2009 15:15 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Neni. Pořádek se musí udržovat. Index slov udržuje Beagle sám.

Pokud není denní uklízení vaše hobby a máte vetší než malé množství dokumentů (ne vaší vinou) v různých formátech na disku pak je desktop serch jasná volba.

mirec avatar 9.10.2009 18:04 mirec | skóre: 32 | blog: mirecove_dristy | Poprad
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Mám množstvo dokumentov primerané tomu, čo robím (pár tisíc väčšinou PDF), logicky usporiadané, keď niečo stiahnem tak to uložím do logickej štruktúry (nie neupratujem každý deň, vlastne v podstate nidky, poriadok udržiavam priebežne).
LinuxOS.sk | USE="-fotak -zbytocnosti -farebne_lcd +vydrz +odolnost +java" emerge telefon
15.10.2009 22:10 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Tak jsem to taky tak dělal. Minulý čas. V praxi jsem narazil následující problémy:

Máte oskenovanou účtenku, zařadíte to spíše do "dokumenty/účty/scan", "dokumenty/scan/účty", "dokumenty/scan/účty/dodavatelA", "dokumenty/dodavatelA/scan/účty/", a tak dále. Neexistuje podle čeho objektivně rozhodnout. Ǔčtenka je jak dokumentem, skenem, tak i účtem. Klasický multihlediskový problém. Můžete to nějak geniálně ošéfovat symbolickými linky, ale to je zase náročnější na údržbu.

Jak pojmenovat dokument. Máte dokument s výpisky s relativně širokým záběrem - Java, JBoss, J2EE. Napadne vás i po měsíci, že ten dokument obsahuje i informace o AOP a AspectJ? Napadne vás to i po roce?

Pokud vám přijde nový druh dokumentu, který nejde zařadit do stávajícího třídění, musíte strávit nějaký čas přemýšlením, kam s ním. Vymyslet něco, podle čeho ho znova najdete i po nějaké době.

Jak najdete něčí telefonní číslo, o kterém víte jen to, že jste si ho na sto procent někam poznamel, bohužel, do jinak vzorně vedeného souboru čísel, to nebylo.

Žijeme v proměnlivém světě. Originální třídící a pojmenovávací systém, onehdy považovaný geniální, se po čase může ukázat nevyhovující, například začne převládat jiný typ dokumentů, než se čkalo a vás čeká dilema zda hromadně reorganizovat (ztráta času, problémy s archivací..) nebo zavést paralelní nekompatabilní systém, vyznat se v tom a nezblbnout. Já osobně jsem si několikrát myslel, že jsem konečně přišel definitivní systém, tohle už obsáhne všechno, a vždycky se ukázalo, že jsem se mýlil.
otula avatar 16.10.2009 10:21 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Pokud odhlédnu od toho, že mám doma na disku spíš velký chaos, než nějakou hierarchii, tak bych to uložil do ~/dokumenty/domaci-finance/uctenka-komoda-loznice.png

BTW by mne fakt děsně zajímalo, jak mi pomůže třeba Google Desktop při hledání oskenované účtenky, kterou jsem si blbě pojmenoval a uložil. A také nevím, proč bych měl ukládat oskenované věci do samostatného adresáře a komplikovat si tím život. To bych si mohl dělat samostatné adresáře pro odt, ods, doc, xls, pdf, jpg, png, tiff… až bych z toho úplně zmagořil.
Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
Drom avatar 17.10.2009 20:33 Drom | skóre: 24 | Kdyne
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
+1 od toho BTW
23.10.2009 14:41 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
> mám doma na disku spíš velký chaos, než nějakou hierarchii

Já reagoval na mirece, ten uvádí, že má logickou hierarchii, žádný chaos. Tak z něj tahám know-how. Chaos umím vyrobit taky a snadno, takže v tom mi asi neporadíte :)

> ~/dokumenty/domaci-finance/uctenka-komoda-loznice.png

Snadné jen na první pohled. Předpokládejmě, že chcete uložit právě koupenou letenku, webová stránka. Lze to považovat za domácí finance? Ano i ne, jak se na to podíváte. A pokud se pro jednu variantu rozhodnete, budete si to pamatovat a aplikovat stejně i za týden, měsíc, rok?

> hledání oskenované účtenky

Pochválen buď za každou účtenku která dojde jako PDF ;) Bohužel, je jich menšina. Vkládám text k obrázkům, jde toho tam naházet víc než do názvu a pořadí není důležité, desktop search si to najde. Hlavně aby tam bylo datum, firma, státní orgán, pár klíčových slov. Bohužel, je s tím spojená nějaká manuální práce ale i při tom DS pomáhá. Jinak čekám jak na smilování na použitelný integrovaný OCR systém do vyhledávače. U Beagle o ničem takovém nevím, ale snad v rámci Nepomuku se něco chystá, ale teď nemohu najít odkaz.

Navíc, důležité transakce si i slovně zapisuji. Přidávám poznámky které na účtence ani nemohou být. Snažím se o jednu přehlednou Calc tabulku, ale realita je někdy složitější. A zase mě z toho tahá DS.

> A také nevím, proč bych měl ukládat oskenované věci do samostatného adresáře a komplikovat si tím život.

Kvůli archivaci! Dokumenty archivuji podstatně častěji, scany jsou o větších objemech dat a navíc, uchovávám i originál, musím. Dokumenty jsou většinou originály. Dokumenty se častěji mění, připisuje se do nich, přejmenovávají, dělí, spojují. Já si tím usnadňuji život.
otula avatar 23.10.2009 20:52 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Nebudu reagovat podrobně, jen zkonstatuji, že vaše argumenty mají logiku, takže je beru a omlouvám se za předchozí cynický tón. (Ale stejně doma žádný indexovač používat nebudu ;-) - akorát si vždy jednou za čas dělám v "domečku" pořádek, když zjistím, že už tam mám příliš velký binec :-))
Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
5.10.2009 09:25 freshmouse
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Ani náhodou, k čemu by mi to bylo? Nejsem žádná databáze nebo co.

A jinak v anketě podle mě chybí Tracker.

5.10.2009 12:15 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Jo, ten měl být na prvním místě.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
5.10.2009 09:56 Joelp | skóre: 1
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Používal jsem Beagle, ale věčně byl zaseklý a žral spoustu výkonu, takže šel pryč.

Boys don't cry
5.10.2009 10:02 Petr
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Ke štěstí mi úplně stačí locate

5.10.2009 10:07 Non_E | skóre: 24 | blog: hic_sunt_leones | Pardubice
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Přesně to stačí i mně :-)
Only Sith deals in absolutes.
unknown_ avatar 5.10.2009 11:57 unknown_ | skóre: 30 | blog: blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
+1. nechapu jaka lama to v ankete opomnela...
5.10.2009 18:32 Zopper | skóre: 15
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Jak se koukám na uvedené programy, je zřejmě myšleno indexování obsahu, nikoliv jen seznamu souborů.. Jinak +1 k locate
"Dlouho ještě chcete soudit proti právu, stranit svévolníkům?" Ž 82,2
unknown_ avatar 5.10.2009 18:49 unknown_ | skóre: 30 | blog: blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Aha, tak to se omlouvam
houska avatar 5.10.2009 12:16 houska | skóre: 41 | blog: HW
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
+1
5.10.2009 13:54 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
slocate
AsciiWolf avatar 5.10.2009 14:38 AsciiWolf | skóre: 41 | blog: Blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

+1

5.10.2009 15:25 Libor Chocholaty | skóre: 12
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Presne tak, me taky :-)

David Watzke avatar 6.10.2009 09:25 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Jojo, konkrétně mlocate je fajn.
“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon
otula avatar 6.10.2009 15:24 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
+1
Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
8.10.2009 15:01 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jestli vám locate tak jste opravdu šťastlivec. Buď si poznámky si píšete na papír a vyhoje vám to, nemusíte denně zápasit s haldou dokumentů, nebo máte geniální systém třídění dokumentů na disku. Pak nebuďte soukromník a podělte se o zkušenosti.

Pokud vám stačí locate, pak vám stačí vyhledávat podle názvu souboru, tak to vám gratuluju. Pokud se nemýlím locate je jen kešovanou verzí findu a obsah souboru nedokáže naindexovat. Takže potřebujete mít všechna relevatní klíčová slova přímo v názvu souboru, geniální pamět, geniální systém třídění dokumentů nebo (nejlépe) nemít moc dokumentů.

Nicky726 avatar 5.10.2009 10:56 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Ještě na KDE 3.5 jsem používal Beagle, od KDE 4.1 už ale tak nějak experimentuju se Strigi.
Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)
8.10.2009 15:18 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Myslíte Strigi Lucene (originálné Strigi) nebo Strigi Nepomuk (ta ořezanina distribuovaná s KDE4)? První funguje ale chybí mu použitelné GUI, druhý GUI má, ale výsledky jsou bídné v porovnání s Beagle.

Nicky726 avatar 8.10.2009 16:14 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Nepomuk.
Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)
5.10.2009 11:07 jehovista
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

updatedb spada do kategorie "jinak" ?

Prcek avatar 5.10.2009 13:16 Prcek | skóre: 43 | Jindřichův Hradec / Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Nejspíš jo, taky používám locate, ale bohužel při klikání mě to nenapadlo, takže jsem zatrhl pouze Ne.
Člověk je takový, jak vypadá... A já vypadám jako pravá, nefalšovaná děvka!!!
5.10.2009 13:39 Kvakor
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Dobrá otázka. Záleží jak se definuje slovo "indexovat". Podle mně se to za indexaci považovat dá, protože z unixového pohledu jsou adresáře jen speciální typ souboru, ale z pohledu uživatele v anketě zmíněných programů to indexování není, protože updatedb žádná data z "normálních" souborů nečte. Jenže ani indexovací programy neindexují všechny soubory, protože by to byla naprostá zbytečnost, obzvlášť v Linuxu. Tak babo raď ...
gtz avatar 5.10.2009 11:14 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

NE , proč ..  a indexování - opičení po slavném Indexing Service ve VISTA apod. ( i na Vista Business v práci to mám OFF )

 

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude
cezz avatar 5.10.2009 14:38 cezz | skóre: 24 | blog: dm6
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

No myslim, ze je to skor napodobnovanie Applieho spotlight (aspon teda myslim, ze to bol taky prvy bezne nasadeny tool na desktopoch) Kazdopadne Vista bola az omnoho omnoho neskor.

Computers are not intelligent. They only think they are.
8.10.2009 17:48 ...............23 | skóre: 15 | blog: Various Stuff blog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Minimálne Copernic Desktop Search a Google Desktop boli určite skôr než spotlight. A možno zas kopa softov bola pred nimi...
cezz avatar 9.10.2009 15:33 cezz | skóre: 24 | blog: dm6
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

To je mozne, kazdopadne mi slo o to, ze sa urcite nikto neopicil po vyhladavani vo Viste, kedze MS toto okopiroval ako posledny. :-)

Computers are not intelligent. They only think they are.
Jakub Lucký avatar 5.10.2009 19:22 Jakub Lucký | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Oni už to uměli nějaké XP... ale možná až od SP2 nebo tak nějak... ale párkrát jsem to už potkal...
If you understand, things are just as they are; if you do not understand, things are just as they are.
5.10.2009 11:23 Deges
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Nejdriv bych definoval slovo obsah :-)
5.10.2009 11:44 kmarty | skóre: 15
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Zkousel jsem tracker a beagle, ale ani jeden nefungoval tak jak by mel (nebo jak bych si pral?) - na spolehlivou indexaci obsahu souborů (k cemu je mi indexovac, kdyz nenajde pulku fajlu co najit ma).

Tak jsem to vsechno povyhazel pryc.

5.10.2009 11:47 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
První věc, co na novém linuxovém desktopu vypínám je všemožné indexování. To je snad ještě horší mor než automatické testy AVG na školních počítačích. Doteď jsem nějak nepochopil, k čemu by mi takové indexování bylo. Zatím mi stačí find, příp. locate a nic jiného ani nehledám.
5.10.2009 13:56 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
První věc, co na novém linuxovém desktopu vypínám je všemožné indexování. - Zatím mi stačí ... locate
ehm ...
5.10.2009 15:05 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Locate ale indexuje jen když chci já, ne automaticky. Stejně většinou spíš používám ten find :-)
6.10.2009 13:08 Nicco | skóre: 9
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Rozdiel je v tom, ze ked mas 30GB dat na disku (maily, pdf, office, txt, logy, ...) a potrebujes najst nieco specificke. Spustis find... -exec grep .... a cakas 30 minut. Vysledok ziaden, tak zmenis kluc ktory hladas a spustis find znova. Cakas 30 minut a nic atd.

Ale ked mas index, to stlacim napr ctrl+g, vyskoci mi okno a pisem, co chcem najst a uz mi to hned doplnuje, pripadne dam zobrazit vsetko a hned za 3 sec mam vysledky pred sebou. Neuveritelny pommosnik vo firmach, ktore musia dodrziavat SLA.
6.10.2009 15:32 NeoV | skóre: 23
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Hmm tak to mi potom musis poradit.... Presne rovnake dovody pre indexovanie som mal aj ja - na firemnom notase pod widlami som pouzival Google Desktop - nakoniec som ale prisiel nato, ze okrem toho ze mi zozral 2GB na Ccku mi nijak nevie pomoct - neovlada regexy - neovlada ani len obycajne stringy so specialnymi znakmi "&", "|", "~", atd... najcastejsie som totiz potreboval dohladat casti kodu (ked som zabudol kde som ho napisal...). No aj tak mi nikdy nic poriadne nevedel dohladat. Tak naco mi to je ? :-)

Mozno som len zvolil nespravnu aplikaciu...

6.10.2009 15:56 Nicco | skóre: 9
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Tak mne zakladne regexp idu, samozrejme Perl to nie je:

Napriklad zadam: "A*C" a najde to ABC, AaC, ...

Specialne znaky GDS nevie, ale mne to staci, hladam iba cele slova. S hldanim kodu, to moze byt problem.
Vykook avatar 6.10.2009 22:30 Vykook | skóre: 23 | blog: Tomas
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

To bude nejspis tim, ze jsi se nesetkal s nejakym poradnym a funkcnim indexovanim.  Mimochodem, jak pomoci find nebo locate najdes ebook, napriklad o Jave, v kterem se nejvic pise treba o junit testech? hm?

Nejde nám o dobro druhých. Nejde nám o bohatství. Jde o čisté opojení mocí.
6.10.2009 23:55 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Nesmyslná diskuze, na to není potřeba ani find, ani locate, je to stejné jako hledat v mobilu kontakt na holiče. Někdo na to potřebuje smartphone s vyhledáváním, někdo prostě rovnou nalistuje to správné jméno.
Vykook avatar 8.10.2009 16:28 Vykook | skóre: 23 | blog: Tomas
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Tak to se omlouvam, netusil sem ze je mezi nama Buh co si pamatuje kompletni obsah treba 50 ebooku tykajicich se stejne oblasti. Ted me prosim omluvte, jdu na dvorek postavit oltar...

Nejde nám o dobro druhých. Nejde nám o bohatství. Jde o čisté opojení mocí.
8.10.2009 20:10 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Tak ne každej si přitáhne na disk 50 podobných ebooků které ani nečet :D To je prostě ten odlišnej přístup o kterém jsem mluvil. Byly doby, kdy měli lidé doma tisíce knih, a když jste se jich na něco z některé z nich zeptal, tak prostě šli, a vytáhli ji. Protože knihy kupovali, četli, ukládali do knihoven. Dneska lidi "stahujou ebooky", maj jich pak 50 ke stejnému tématu, nečetli ani jeden, pak se samozřejmě fulltext hodí, když v nich hledají něco, o čem neví jestli to tam je nebo ne. Ale nedělají to tak všichni.
8.10.2009 20:26 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
A jak že to používáte referenční příručky? A proč že to odborné knihy mívají rejstřík? Ach, odlišnej přístup, že.
Ještě na tom nejsem tak špatně, abych četl Viewegha.
8.10.2009 23:48 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Jistě, rozlišuji "výběr knihy" a "nalezení obsahu v knize". Díky své inteligenci ;) a jistým neopomenutelným znalostem dokumentů stažených z internetu na lokální disk ;D jsem schopen predikovat (pro vás to bude možná magie) konkrétní referenční příručku, ve které budu následně schopen (fulltextově) najít hledaný obsah. Vím, může to znít jako šarlatánství ;), ale tenkrát před vynálezem Google to tak někteří lidé fakt dělali ;) ;)

Dřív bylo běžné heslo "musíte toho hodně vědět a znát", pak přišlo "nemusíte nic znát, stačí vědět, kde to najít", a někteří to dotahují do dokonalosti současným "nemusíte nic vědět ani znát, ani vědět kde to najít, stačí když znáte člověka nebo nástroj, který vám to nalezne za vás". Ale není to jediný přístup. Pokud máte základní znalost báze dat, ve které informace hledáte, nemusíte prohledávat a indexovat úplně všechno v dosahu (knihy, deníček, sms archiv mobilu přítelkyně, svůj očkovací průkaz, návod na přípravu kolínek na sáčku těstovin), stačí vám prohledat konkrétní dokument či knihu. Tu konkrétní knihu jste schopen najít právě na základě znalosti té báze dat. Jasný? ;) ;) ;)
9.10.2009 09:14 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Není mi to jasný :-) Teda není mi jasnej rozdíl mezi prohledáváním knihy a prohledáváním archivu knih. Pokud budete mít v knihovně takovej bordel, jako někteří lidi na disku, tak vám nepomůže ani svěcená voda, ale na počítači se to dá zachránit.

Tedy slovo zachránit vyjadřuje jeden extrém, na opačném konci je možný názor, že pevné strukturování je přežitek. Faktem zůstává, že moderní poznatky z oblasti information retrieval umožňují strukturování mnohem volnější (což má svoje výhody: když kniha patří do dvou kategorií, v knihovně máte smůlu, v adresářové struktuře si možná vyrobíte symlink, s indexováním obsahu to vůbec nemusíte řešit) a nádavkem takové věci, jako automatické zodpovídání dotazů (cha, to by byla killer fíčura pro desktopové vyhledávání!) a podobně.

Pokud se umisťujete do toho prvního extrému, vaše věc, ale ten povýšený postoj tomu příliš nesluší :-)
Ještě na tom nejsem tak špatně, abych četl Viewegha.
9.10.2009 09:28 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Ten rozdíl je ten, že lidé si sice zpravidla nepamatují, jak přesně vypadá nějaká česká bankovka, ale mnoho lidí ví, kde má peněženku. To jsou prostě informace, které si lidé zapamatovat schopni jsou. Takže pokud chtějí vědět, jak přesně vypadá nějaká bankovka, nemusí mít obsah peněženky indexovaný, protože místo prohledávání indexu jdou, vyndají peněženku, a podívají se.

Jiní lidé zase ví, kde mají ručník, takže když se chtějí osušit, sáhnou na věšák na ručníky, nemusí hledat v indexu, kde je nějaký ručník. V indexu by sice nepochybně našli ručník na věšáku, ale také by tam našli spoustu ručníků ve skříni, pár pamětních s vyšitým monogramem v truhle na půdě po babičce a jeden který používají jako hadr na podlahu. Tento dynamický seznam, který by předem nedokázali jednoduše vygenerovat, by si museli okem prohlédnout, a mezi těmi všemi ručníky by následně museli vybírat ten správný. Což je unavující asi jako MS Ribbon. Proto raději svá data neindexují, a dají přednost pamatovat si, kde co mají.
9.10.2009 09:38 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
S rozumným vyhodnocováním relevance na první pozici dostanete ručník na věšáku a hotovo. A když na to přijde, můžete ten ručník dostat přímo pod nos, místo toho, abyste si pro něj musel chodit do koupelny. Tož tak.
Ještě na tom nejsem tak špatně, abych četl Viewegha.
9.10.2009 12:00 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Někdy ale na prvním místě dostanete něco jiného, takže obezřetnost je stále nutná, a někteří lidé prostě nemají rádi tu nejistotu :) Pod nos ručník dostanete, ale taky to chviličku trvá, podobně jako dojít do koupelny, časovou kauzalitu nevošidíte a odpovědi na otázky nezískáte dřív, než je položíte.

A navíc to budete mít všecičko úúplně zadarmo dědo. Vlastně dneska máme ještě akci, takže na to dostanete ještě 10% slevu. Tak to máme ale štěstíčko, co? Jenom mi to tadydle podepište...
9.10.2009 12:10 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
No jo, nejistota. A co když vám manželka (staří mládenci si dosadí maminku nebo hospodyni) ten ručník z věšáku sundala, protože ho hodlá vyprat, a nezvedení potomci v knihovně knížky rozházeli, a vůbec všecko. Tohle už mě nebaví. Mimochodem desktopové vyhledávání nepoužívám, ale to mi nebrání vidět jeho účel.

Jo a jestli vás baví zesměšňovat směšná přirovnání, která jste sám vymyslel, tak vám samozřejmě nehodlám bránit :-)
Ještě na tom nejsem tak špatně, abych četl Viewegha.
9.10.2009 17:49 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Ano proto jsem tam zdůraznil to "svá" data, tedy něco co nikdo nikam náhodně přesunovat nebude. Odlišný případ je pak když někdo pracuje s cizími daty, nebo větším množství pracovních dokumentů a podobně. Ono když přeházím již zaindexovaná data na disku mezi jednotlivými indexováními, tak by to pak mohlo být také o něco hůř použitelné, ale řekněme že mezní případy (všetečné dítko či sjetý admin) nebudeme uvažovat :)
Vykook avatar 9.10.2009 00:23 Vykook | skóre: 23 | blog: Tomas
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

 Jasne, ne kazdy to tak dela, ale ja si zkratka amoralne stahnu ebooky, a pak pres spotlight hledam slova. Mluvit o tom jako o nesmyslu je ale velmi prehnane.

Nemluve o tom, ze zmacknout klavesovou zkratku, napsat "karel n", "zivotopis" ci"1+1" a odbouchnout enterem, je rychlejsi nez poustet prislusnou aplikaci a resit to v ni. Chapu ale ze ne kazdymu to sedi, nekdo rad holky a jinej zas vdolky ;-)

Nejde nám o dobro druhých. Nejde nám o bohatství. Jde o čisté opojení mocí.
5.10.2009 12:14 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Považuju indexování za nutnou součást svého desktopu hlavně vzhledem k obřímu množství různých stažených PDF. Používám ke své relativní spokojenosti tracker. Proti beaglu užere znatelně míň výkonu. Indexuje efektivně vyhledává rychle. Jenom občas neposlechne a musím zabít proces, což je známý bug.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
alblaho avatar 7.10.2009 08:52 alblaho | skóre: 17 | blog: alblog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Já taky používám Tracker, občas, na ta pdf se to hodí.

Tracker v anketě chybí, vždyť je to preferovaný indexátor Utunta. Nedávno jsem experimentoval se SUSE a musím říct, že ten Beagle už není až tak strašný žrout.
5.10.2009 14:01 Matlák
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
já indexuju stylem /usr/bin/updatedb a to dělám jen velmi málo často, nemám potřebu něco hledat na celém disku jelikož mám ve většině svého bordelu pořádek :-)
xkucf03 avatar 5.10.2009 16:48 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Záleží na obsahu
Odpovědět | Sbalit | Link | Blokovat | Admin

Záleží, co má člověk za data, když to jsou fotky, mp3, filmy a pár dalších souborů, tak je indexování zbytečné. Když si ale někdo dělá „výstřížky“ z webu (ukládá si zajímavé stránky) nebo zápisky ze školy nebo materiály z různých konferencí, tak se indexování hodí… Ale dneska už neindexuji ani to – buď je těch dat tolik, že indexace i hledání jsou zdlouhavé nebo je jich celkem málo a pak se v tom zvládnu vyznat sám.

Třeba na ty zápisky ze školy jsem si udělal složku „předměty“ a do ní si dal symbolické odkazy na předměty ze všech semestrů (samostatné adresáře). No a teď když něco hledám, tak mi stačí konqueror a Ctrl+I a zadat pár písmenek z názku předmětu → vyfiltrují se a stačí kliknout.

Webové stránky si už moc neukládám, buď si jen uložím odkaz nebo si ty hodně zajímavé věci přepíšu do blogu nebo do textového souboru s návody.

Možná zase nějakou indexaci vyzkouším, ale aby mi tu pořád drnčel disk, na to moc zvědavý nejsem :-)

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
5.10.2009 17:00 jozka | skóre: 19 | blog: jozkovo
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Zaskrtl jsem Beagle a Ne :-) Beagle jsem totiz vzdycky posilal kamsi, ale vcera neco delam, pocitac vypadal, ze zatuhl, tak koukam, co se deje a on to Beagle. Jak se tam ten vir dostal a rozjel netusim...
Luk avatar 5.10.2009 17:30 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Jak se tam ten vir dostal a rozjel netusim...
Beagle mi nesmí přes práh. Také jsem s ním kdysi bojoval, vždycky jsem ho vymlátil a za nějakou dobu tam byl zpět. Teď už mám naštěstí delší dobu pokoj.
Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly
Fluttershy, yay! avatar 5.10.2009 18:00 Fluttershy, yay! | skóre: 93 | blog:
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Vhodná adresářová struktura a sklony k puntíčkářství jsou efektivnější. Při mém množství dat. Poznámky, v nichž je trošku bordel, mám na několika webech a tam zase může Google.
🇵🇸Touch grass🇺🇦 ✊ ani boha, ani pána
5.10.2009 18:21 arnor | skóre: 2 | blog: moje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Gnome-do a v něm jako plugin locate. Funguje to:)

Amarok avatar 5.10.2009 18:42 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Muze mi nekdo vysvetlit (a urcite i par jinym lidem), jake indexovani, google desktop, beagle... ??? :-o
O co vubec jde?
Koukam ze se tu i pise o updatedb a locate, to znam a pouzivam, ale ostatni mi nic nerika a nevim, k cemu bych to mel potrebovat.
GNUniverse - May the source be with you...
Nicky726 avatar 5.10.2009 19:12 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Indexování se na rozdíl od updatedb zabývá obsahem souboru (text pdf, historie IM klienta...) Užitečné to může být, když má člověk kopu souborů, u kterých přesně neví, co v nich je.
Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)
Amarok avatar 5.10.2009 19:16 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Aha, dik, tak to je neco pro bordelare, proto jsem to nikdy nepostradal :)
GNUniverse - May the source be with you...
5.10.2009 18:59 miho | skóre: 24 | blog: Mihovy_sochory | Orlová
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
V Linuxu jsem zkoušel Beagle ale moc dobře to nefungovalo, brzdilo to i po znásilnění iostatem, nechtělo se to napojit na prohlížeč takže to nešlo použít jako historii prohlížení, nechtělo si to rozumět s thunderbirdem takže mi to nenacházelo poštu atd. Zkrátka to neplnilo účel, který jsem po tom chtěl- abych na jednom místě zadal pár slov spojených logickými operátory a ono mi to našlo všechno, co splňuje zadané podmínky- soubory, IM zmprávy, maily, prohlídnuté webové stránky,...

V Mac OS je Spotlight a tam takové věci fungují takže to používám.

Je také fajn, že když smáznu třeba PDF ale nevím kde bylo ani jak se jmenovalo ale znám nejaká specifická slova, která se tam vyskytovala, tak mi to Spotlight vyhledá protože udržuje fulltext index TimeMachine záloh.
vlastikroot avatar 5.10.2009 20:12 vlastikroot | skóre: 24 | blog: vlastikovo | Milevsko
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Neindexuju vubec, ve svem filesystemu mam poradek. Maximalne bych mohl brat kolekci v amaroku, ale posledni dobou prechazim na zaruceny a funkcni find, cd a mplayer :-D
We will destroys the Christian's legion ... and the cross, will be inverted
5.10.2009 23:16 svaca | skóre: 38
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Jestli pod Snow Leopardem indexuju ? Indexuje sam a nechapu, jak jsem vubec nekdy, kdysi davno bez toho mohl existovat, nastesti indexuje i iphone ... :-)
Never give up ! Stay ATARI !
xsubway avatar 5.10.2009 23:22 xsubway | skóre: 13 | blog: litera_scripta_manet
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

 Dal jsem NE, protože používám pouze locate, ale pro indexování by mi nejvíc vyhovovalo něco jako OpenBFS ;-)

6.10.2009 11:35 JirkaH
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

tezko muzu indexovat neco, co neni namountovane...

xkucf03 avatar 6.10.2009 12:58 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše papír

Šanony?

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
Jakub Lucký avatar 6.10.2009 14:09 Jakub Lucký | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: papír
Ty se dobře mountujou přes scanner...
If you understand, things are just as they are; if you do not understand, things are just as they are.
6.10.2009 13:18 Michal2
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Derne stitky?

6.10.2009 13:12 Nicco | skóre: 9
Rozbalit Rozbalit vše Ako znizim GoogleDesktop vytazovanie?
Odpovědět | Sbalit | Link | Blokovat | Admin
Pouzival som kerry/beagle, ale mal slabe vysledky oproti google desktop search. GDS celkom ujede (kazdy vie, ze Google je najlepsi vo vyhladavani), ale vadi mi narocnost indexovania prvych 1-2 minut po starte systemu, kedy to sposobuje strasne IO-waity. Nevie niekto, ako by sa to vytazovanie dalo znizit?
Luk avatar 6.10.2009 13:35 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Ako znizim GoogleDesktop vytazovanie?
Nevie niekto, ako by sa to vytazovanie dalo znizit?
Nastavit I/O prioritu na třídu idle. Například takhle:
ionice -c3 -p89
To "89" se samozřejmě nahradí skutečným PID (např. z PID souboru - nevím, jestli si GDS nějaký vytváří). Pokud běží více procesů nebo vláken, je potřeba to už se změněnou prioritou už spouštět (aby se to nemuselo upravovat všechno).
Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly
6.10.2009 19:01 Septyk | skóre: 2 | Teplice
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Na WinXP  v práci mám Google Desktop Search, opravdu se vyplatí, mám zaindexováno několik stovek, možná tisíc PDF souborů (za těch let asi tisíce). Dělám v reklamce a potřebuju podle klíčových slov z obsahu souboru dohledat grafiky atd...k nezaplacení, 2-3 klíčová slova a požadovaný grafika nalezena za 2s :) Doma používám Tracker, ale abych pravdu řek, nepoužívám ho. Mám všechno srovnané..... (vlastně používám, ale jen proto že to jde, ne že to chci :D )

...
7.10.2009 09:45 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Pouzivam locate, ale v posledni dobe uvazuji nad fultextovym indexovanim mych ebooku

Salutis avatar 7.10.2009 10:15 Salutis | skóre: 7 | blog: Salutis
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
V Mac OS používam Spotlight a ten funguje perfektne. Na Linuxových mašinách vo VMware dokumenty nedržím, takže tam nič.
Najväčší dar je vedieť posúdiť hodnotu vecí.
7.10.2009 16:45 Miki
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin

Rád bych se zeptal na trochu jinou věc, přesto související. Nevíte někdo náhodou o nějakém databázovém (tagovém) souborovém systému. To by bylo na klíčová slova nejlepší... žádné vyhledávání :-).

7.10.2009 17:00 Kvakor
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Ano. Microsoftí WinFS a GNOME Storage. Druhé jmenované je mrtvé už několik let a to první pravděpodobně postihne osud hry Duke Nukem Forever ...
7.10.2009 17:07 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Dneska už je totiž Zeitgeist.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
7.10.2009 17:21 Kvakor
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
A tucet dalších indexovačů .... Prostě se to ze záležitosti souborového systému (kde to podle mně stejne nemá co dělat) přesunulo do aplikační vrstvy.
7.10.2009 17:32 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Podívej se o čem Zeitgeist je. Také o tagování, ne jen indexování.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
Jendа avatar 8.10.2009 21:38 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Podívej se o čem Zeitgeist je.
No, nejdřív tam nějaký pán mluvil o bohu a o ďáblu, pak tam ukazovali nějaká letadla, která narazila do dvou věží, pak se třetí budova kus od těch věží sesula a pak tam bylo něco o takových malých zelených papírcích... :-D:-D:-D:-D
8.10.2009 23:35 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
To doufám nemá nic společnýho s GNOME 3 :-).
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
8.10.2009 09:55 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Rád bych se zeptal na trochu jinou věc, přesto související. Nevíte někdo náhodou o nějakém databázovém (tagovém) souborovém systému. To by bylo na klíčová slova nejlepší... žádné vyhledávání :-).

výše zmíněný BFS nevyhovuje?
8.10.2009 15:10 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Jenže takový systém musíte aktivně udržovat = moc práce. Index klíčových slov se udržuje sám. Mě statčí, že musím indexovat forky. Kdyby tak existoval indexer obsahu fotek a já jen mohl zadat "najdi já pohled zepředu" to by bylo super!

mkoubik avatar 11.10.2009 15:23 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Picasa?
Jardík avatar 8.10.2009 14:30 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Odpovědět | Sbalit | Link | Blokovat | Admin
Ano, soubory mi indexuje Windows Search. Je to rychlé, nezdržuje to při práci a výsledky hledání jsou okamžité, je to integrované do správce souborů i nabídky start. Lze hledat pomocí regexů, nastavovat spousty kritérií včetně metadat a pod. Beagle, Strigi i Google Desktop jsou proti němu šneci s někdy i nesmyslnými výsledky.
Věřím v jednoho Boha.
8.10.2009 15:07 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

No jestli Beagle necháváte prohledávat /dev/random tak to je možné že ještě neskončil :) Jinak si vaše závěry ohledně Beagle nedovedu vysvětlit.

Amarok avatar 8.10.2009 17:43 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Ja si ty nesmyslne vysledky vysvetlit dovedu, jednoduse neznalost urciteho programu. Pochybuju, ze M$ program pouziva stejny zapis regexu jako Beagle apod., dokonce i v linuxu jsou mezi jednotlivymi programy nekdy znatelne rozdily v zapisu.
GNUniverse - May the source be with you...
9.10.2009 14:19 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ja dost pochybuji že Beagle (a podobné) vůbec regex podporují. Nepleťte si prosím grep a desktop search (beagle). Dost pochybuji, že MS Indexing Service regex podporuje. V desktop search nemá RE smyls. Řada příkazů RE nemá v inverzním indexu smysl, například konec a začátek řádky, u dokumentu to samé, v dokumentech ODF, PDF, HTML, .. je řádek dynamická věc, záleží na roztažení okna nebo nastavení tiskárny. Speciální znaky (&,_,*) nadbytečné mezery, white space, se z indexu vyhazují, jde o surový text, o pojmy ne o stringy!

U desktop search programu jsou důležité jiné věci:

automatický stemming - to je o gramamtice, Beagle má EN gramatiku, u češtiny vůbec pochybuji že něco takového lze udělat ("dance" will also match documents containing the words "dances", "dancing", and "dancer")

pravostranné a levostranné rozšíření - "black*" o find words like "black", "blackbird", and "blacksmith"

NEAR operátor - slova od sebe nesmí být dále než zadaný počet slov, luxusní výbava, velmi užitečné v dlouhých dokumentech, mám podezření, že Beagle nezvládá i když Lucene pro to podporu má, škoda.

exclude, NOR, OR, grupování - no to je jasné, to umí snad všechni

váhy - slovo v nadpisu má větší váhu než slovo v normálním textu, zvyšuje relevanci dokumentu. Také asi Beagle neumí. Vyžaduje pokročilé analyzéry textu binárních dokumentů.

atd. atd. snažil jsem se alespoň naznačit, o co v desktop search jde a že tam RE nemají moc užitek.

9.10.2009 16:03 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
u češtiny vůbec pochybuji že něco takového lze udělat
Stemming se velmi často dělá pouhým odtrháváním koncovek, což pro češtinu lze samozřejmě triviálně udělat taky. No a i česká morfologická analýza je v podstatě vyřešený problém.
Ještě na tom nejsem tak špatně, abych četl Viewegha.
9.10.2009 17:47 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Máte nějaké bližší informace, odkazy, jak daleko je implementace, ideálně open source, českého stemmingu? Zase tak moc oblast nesleduji. Jednak některá slova mění i kořen, těch tolik nění, horší to je s množstvím koncovek a přiřazení správných k esprávnému slovu, pán, k páNOVI, žena, k žeNĚ a tak dále. žeNOVI je nesmyslný tvar a nemělo by to podle něj hledat. Volá to po masivní tabulce pro všechna slova. Nějak to spojit s spellcheckerem, hunspell, nebo tak, jestli to jde.

9.10.2009 18:05 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
To odtrhávání koncovek beru zpět, to není stemming (hledání gramatického kořene), to je lematizace (hledání společného podslova, které nemusí být nutně kořenem, pro účely vyhledávání často zcela dostačující) :-) Ale ona se tahle dvě slova docela často zaměňují. Klasický morfologický analyzátor pro češtinu je ajka, to je rok 1999 :-) Jestli je něco open-source, to netuším.
Ještě na tom nejsem tak špatně, abych četl Viewegha.
15.10.2009 20:03 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
A používá se to někde? Zvládají desktop search produkdy MS českou stemming/lematizaci? Testoval to někdo?
Jardík avatar 8.10.2009 23:59 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Tak mi řekněte, jak v beaglu prohledáte v jednom hledání adresáře /franta/moje_projekty/tajné a /franta/ukradené_projekty/tajné (předpoklad je, že jsou indexovány). Vyhledáváte tam všechny soubory s příponou ".cpp", které obsahují text "struct __attribute__((packed))". A potom jak to samé uděláte v beaglu, aniž by byly ty adresáře indexovány a aniž byste je před hledáním do indexování přidal. Výsledky musí být rozumně zobrazeny a musí s nimi jít dělat to, co ve správci souborů, tj. drag-and-drop, kopírování, otevření, smazání, zobrazení vlastností souboru. Hledací "dotaz" musí jít uložit jako záložku, kterou lze kdykoli vyvolat v souborovém manageru a open/save dialogu.

To prostě beagle nedokáže kvůli mizerné integraci.
Věřím v jednoho Boha.
9.10.2009 13:57 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

inuri:file:///franta/moje_projekty/tajné ext:cpp

Beagle toho umí opravdu hodně. Mrkněte na http://beagle-project.org/Searching_Data

S vyhledáváním specifických C/C++/Java konstruktů to bych ani od vyhledávače dokumentů nečekal, od toho jsou IDE :) Pro Windows jich také pár povedených je.  Za sebe vám mohu doporučit Eclipse CDT, to vám spolehlivě a integrovaně struct __attribute__((packed)) najde. Pohání ho stejná technologie jako Beagle - Lucene engine. Samozřejmě optimalizované pro daný počítačový jazyk.

KIO Beagle (virtuální adresář s výsledky, záložky, historie ..):
http://www.kde-apps.org/content/show.php?content=28437 ..screenshoty napoví.Většině lidí ale asi bude bohatě stačit ten defaultní klient.

Jardík avatar 9.10.2009 14:41 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Snad jen dodám: "Jdu zvracet". Jak z návrhu na Eclipse (java), tak z okna s výsledky beaglu, které vám neumožní vůbec nic ... to kio vypadá podstatně lépe, ale pro mě je nepoužitelné kvůli nepoužitelnému KDE. Od desktopového prostředí totiž vyžaduji rychlost a stabilitu a to mi KDE4 dát nemůže.
Věřím v jednoho Boha.
9.10.2009 17:57 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?

Ale copak, alergie na kávu? To vás lituju.

Pokud jste se už vrátil ze záchoda (spláchnuto? ruce umyty?) tak jen dodávám, že KIO (Konqueror) funguje jak pod Gnome tak FluxBoxu o stále nejlepší KDE3 ani nemluvě.

Ten klient, Kerry, základní věci umí, včetně zobrazní částí textu okolo hledaných výrazů, alá google, a základní souborové operace také. To je běžné používání víc než dost.

Jardík avatar 9.10.2009 18:11 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Nefunguje, protože konqueror vyžaduje půl giga zbytečností na disku. Navíc jak jsem řekl je KDE a všechno z něj pomalé.
Věřím v jednoho Boha.
15.10.2009 19:59 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
konqueror vyžaduje kdebase a kdelibs a Qt. To těžko dá dohromady půl giga :) Moderní OS mají trochu tendenci k nenažranosti. Na druhou stranu lkát nad několika desítek MB navíc, i kdyby stovek! v době kdy si lidi kopírují na disk videa kde 1GB není míra, je trochu opožděné. Berte to vždy proporčně k uživatelským datům. KDE3 je (bylo) taky pomalé? To pak nevím jaký termín použít pro Gnome nebo Visty.
Jardík avatar 19.10.2009 10:35 Jardík | skóre: 40 | blog: jarda_bloguje
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
A co vyžaduje kdebase, kdelibs a Qt, to už jste nezmínil ... to už půl giga hravě dá.
Věřím v jednoho Boha.
23.10.2009 13:55 Espinosa | skóre: 24 | blog: Espblog | London
Rozbalit Rozbalit vše Re: Indexujete obsah svého systému?
Alespoň jednu lokalizaci, glibc, to by mělo být tak všechno.

Bohužel balíčky mají nároky divočejší, proč je vyžadován iconset Oxygen, který stejně nepoužívám, nebo přes kdecore se tam dostane kdeunittest, huh, to už je úchylnost. Baliči zjevně nepočítají s možností, že si někdo bude chtít nainstalovat jen a jen konqueror. Asi to nebude jen problém Mandrivy.

Baličů je málo (relativně), distribucí hodně (bohužel), aplikací hodně a přibývá (naštěstí), disky se počítají na stovky terabajtů = nikdo se s jednotlivými megabajty babrat nebude.

Ale třeba ti někdo takový minimalistický balíček vyrobí, když jsi tu tak populární :)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.