abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 08:00 | Zajímavý článek

Portál Stack Overflow po roce opět vyzpovídal své uživatele, jedná se především o vývojáře softwaru, a zveřejnil detailní výsledky průzkumu. Průzkumu se letos zúčastnilo více než 80 tisíc vývojářů. Z Česka jich bylo 792. Ze Slovenska 252. Celkově bylo 91,67 % mužů a 5,31 % žen.

Ladislav Hagara | Komentářů: 15
včera 07:00 | Zajímavý článek

Valentina Palmiotti ze společnosti Grapl v příspěvku na blogu podrobně rozebírá bezpečnostní chybu CVE-2021-3490 v Linuxu, konkrétně v eBPF, zneužitelnou k lokální eskalaci práv. Chyba byla v upstreamu opravena již v květnu.

Ladislav Hagara | Komentářů: 0
včera 06:00 | Pozvánky

Od pátku 6. srpna do neděle 8. srpna proběhne online The Raku Conference, tj. konference věnovaná programovacímu jazyku Raku.

Ladislav Hagara | Komentářů: 0
4.8. 13:00 | IT novinky

Zítra končí bezpečnostní konference Black Hat USA 2021 (Twitter) a začíná bezpečnostní konference DEF CON 29 (Twitter). Kvůli COVID-19 letos probíhají obě konference hybridně, v Las Vegas i virtuálně. V rámci Black Hat budou vyhlášeny výsledky letošní Pwnie Awards (Twitter). Pwnie Awards oceňují to nejlepší, ale i to nejhorší z IT bezpečnosti (bezpečnostní Oscar a Malina v jednom). Viz nominace.

Ladislav Hagara | Komentářů: 0
4.8. 09:00 | Zajímavý článek Ladislav Hagara | Komentářů: 7
4.8. 08:00 | Pozvánky

MojeFedora.cz zve na online konferenci Nest with Fedora 2021 (Flock to Fedora). Konference proběhne od čtvrtka 5. srpna do soboty 7. srpna, vždy od 14:00. Na programu je řada zajímavých přednášek.

Ladislav Hagara | Komentářů: 0
4.8. 07:00 | Nová verze

CrossOver, komerční produkt založený na Wine, byl vydán ve verzi 21. Přehled novinek v ChangeLogu. Verze 21 je založena na Wine 6.0 s více než 8 300 vylepšeními.

Ladislav Hagara | Komentářů: 4
3.8. 16:22 | IT novinky

Byla vydána videohra o stínech minulosti Svoboda 1945: Liberation. Druhá světová válka skončila, ale ve vesnici Svoboda na česko-německém pohraničí mír nenastal. Přijeli jste rozhodnout desetiletí trvající spor. Komu věřit? Jak s tím souvisí vaše rodina? Vyzpovídejte svědky a odhalte pravdu o vlastní minulosti ve hře, jakou jste ještě nehráli.

Ladislav Hagara | Komentářů: 18
3.8. 15:22 | Komunita

Dnes 3. srpna od 20:00 a o týden 10. srpna od 20:00 proběhne online konference Qubes virtual mini-summit 2021 věnovaná operačnímu systému zaměřenému na bezpečnost Qubes OS (Wikipedie). Přednášky lze sledovat na YouTube.

Ladislav Hagara | Komentářů: 0
3.8. 07:00 | Nová verze

Po půl roce od vydání verze 2.33 byla vydána nová verze 2.34 knihovny glibc (GNU C Library). Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
Jak synchronizujete data mezi zařízeními?
 (22%)
 (21%)
 (15%)
 (19%)
 (23%)
Celkem 81 hlasů
 Komentářů: 10, poslední včera 15:58
Rozcestník



Dotaz: nástroj pro vyhledávání ("lokální google")

5.8.2005 09:46 deleted | skóre: 3 | blog: pnojmatika
nástroj pro vyhledávání ("lokální google")
Přečteno: 83×
Mám na disku spoustu e-knih, manuálů a jiných textů (převážně v pdf a html). Potřeboval bych v nich nějak rozumně vyhledávat (např. zda obsahují slovo1 a zároveň slovo2). Je mi jasné, že to lze zařídit standardními prostředky. Např. AND realizuji takto (pdf mám převedené pomocí pdftotext):
soubory=`grep -r -F -l -i -e $slovo1 ./`
grep -F -l -i -e $slovo2 $soubory
Jediná nevýhoda je, že je to pomalé. Takže potřebuji nějaký nástroj, který by uměl obsah indexovat a pak v něm vyhledávat tak jako google (tedy nepotřebuji regulární výrazy). Existuje něco?
deleted

Odpovědi

5.8.2005 09:59 miso
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
Potrebujes psa aby to vycuchal? ;-)
beagle si prehladavane veci uchovava v sqlite3 subore, takze mozes pouzit aj sql
http://beaglewiki.org/Main_Page
5.8.2005 10:19 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
díky, něco míň "těžkotonážního" by nebylo?
deleted
5.8.2005 10:23 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
Na Lupe vyšel v rámci jednoho seriálu zajímavý čánek.
XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.
5.8.2005 11:04 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
Jestli to dobře chápu, tak pro každé slovo se vytvoří soubor na disku. Neovlivní velké množství malých souborů práci souborového systému?
deleted
5.8.2005 11:11 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
Jak u kterého, třeba u Reiseru rozhodně ne.
XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.
5.8.2005 11:18 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
a u ext3 ?
deleted
5.8.2005 11:45 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
Tam je to horší, ale záleží jaké objemy chceš zpracovávat. Pokud ti beagle přijde těžkotonážní, tak rozhoně nejsi v oblasti, kde by tě to mohlo trápit. Rozhodně to bude řádově rychlejší než grep a pokud by jsi měl problém s počtem inode, tak můžeš ten index přesunout na zvláštní svazek. Jen nesmíš do toho adresáře vlést nějakou hloupou GUI aplikací :-)
XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.
5.8.2005 11:55 deleted | skóre: 3 | blog: pnojmatika
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
bezva, dík moc za skvělé odpovědi
deleted
5.8.2005 11:34 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: nástroj pro vyhledávání ("lokální google")
Kyž se tak koukám na ten kód, tak by to chtělo trošku vylepšit/opravit/zrychlit (krom toho, že je tam malý překlep)
#!/bin/sh
mkdir index

for i in /usr/share/doc/xfig/html/*.html
do
  lynx -dump $i |
  tr '[:upper:]' '[:lower:]' |
  tr -cs '[:alnum:]' '[\n*]' |
  sort | uniq -c |
  while read COUNT WORD
  do
    echo $COUNT $i >>index/$WORD
  done
done
a search
#!/bin/sh

WORD=$1

ILIST=index/$WORD

if [ ! -f $ILIST ]
then
    echo "No match"
    exit 1
fi

sort -n -r $ILIST | sed 's/^ *\([0-9]*\)/(\1) /'
aneb v jednoduchosti je krása. Ještě by neuškodilo to udělat na různé typy souborů (pomocí file, rozhodně ne podle přípony :-) ), inkrementace indexu atd.
XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.