nástroj pro vyhledávání ("lokální google")

Mám na disku spoustu e-knih, manuálů a jiných textů (převážně v pdf a html). Potřeboval bych v nich nějak rozumně vyhledávat (např. zda obsahují slovo1 a zároveň slovo2). Je mi jasné, že to lze zařídit standardními prostředky. Např. AND realizuji takto (pdf mám převedené pomocí pdftotext):

soubory=`grep -r -F -l -i -e $slovo1 ./`
grep -F -l -i -e $slovo2 $soubory

Jediná nevýhoda je, že je to pomalé. Takže potřebuji nějaký nástroj, který by uměl obsah indexovat a pak v něm vyhledávat tak jako google (tedy nepotřebuji regulární výrazy). Existuje něco?

deleted

Na Lupe vyšel v rámci jednoho seriálu zajímavý čánek.

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

5.8.2005 11:04 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")

Jestli to dobře chápu, tak pro každé slovo se vytvoří soubor na disku. Neovlivní velké množství malých souborů práci souborového systému?

deleted

5.8.2005 11:11 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")

Jak u kterého, třeba u Reiseru rozhodně ne.

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

5.8.2005 11:18 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")

a u ext3 ?

deleted

5.8.2005 11:45 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")

Tam je to horší, ale záleží jaké objemy chceš zpracovávat. Pokud ti beagle přijde těžkotonážní, tak rozhoně nejsi v oblasti, kde by tě to mohlo trápit. Rozhodně to bude řádově rychlejší než grep a pokud by jsi měl problém s počtem inode, tak můžeš ten index přesunout na zvláštní svazek. Jen nesmíš do toho adresáře vlést nějakou hloupou GUI aplikací :-)

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

5.8.2005 11:55 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")

bezva, dík moc za skvělé odpovědi

deleted

5.8.2005 11:34 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")

Kyž se tak koukám na ten kód, tak by to chtělo trošku vylepšit/opravit/zrychlit (krom toho, že je tam malý překlep)

#!/bin/sh
mkdir index

for i in /usr/share/doc/xfig/html/*.html
do
  lynx -dump $i |
  tr '[:upper:]' '[:lower:]' |
  tr -cs '[:alnum:]' '[\n*]' |
  sort | uniq -c |
  while read COUNT WORD
  do
    echo $COUNT $i >>index/$WORD
  done
done

a search

#!/bin/sh

WORD=$1

ILIST=index/$WORD

if [ ! -f $ILIST ]
then
    echo "No match"
    exit 1
fi

sort -n -r $ILIST | sed 's/^ *\([0-9]*\)/(\1) /'

aneb v jednoduchosti je krása. Ještě by neuškodilo to udělat na různé typy souborů (pomocí file, rozhodně ne podle přípony :-)

), inkrementace indexu atd.

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

Dotaz: nástroj pro vyhledávání ("lokální google")

Odpovědi