Portál AbcLinuxu, 10. května 2025 02:41

Dotaz: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu

10.9.2015 10:01 Laco
Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Přečteno: 336×
Odpovědět | Admin
Dobry den,
mam adresar s niekolkymi podadresarmi s asi 6000 PDF subormi. Potrebujem nasledovne riesenie na vyhladavaci web framework:

- rychle vyhladavanie v nazvoch PDF suborov
- rychle vyhladavanie v samotnych PDF suboroch
- vsetko vyhradne cez web rozhranie

viete mi poradit nejake hotove riesenie, popr. ako na tento problem ist ? vytvorit si databazu (a pravidelne ju aktualizovat) nazvov aj obsahov dokumentov a hladat v nej alebo hladat zakazdym vsetky subory a ich obsah ?

Dakujem
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

10.9.2015 17:19 DarkKnight | skóre: 26
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Solr?
Jendа avatar 11.9.2015 00:14 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Používám recoll + https://github.com/koniu/recoll-webui. Asi neumí separátně názvy, šlo by dohackovat přes locate.
14.9.2015 21:29 R
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Ten recoll vyzera dobre - nikdy som sa o toto nezaujimal, tak som ani nevedel, ze take nieco existuje.
14.9.2015 20:48 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Odpovědět | | Sbalit | Link | Blokovat | Admin
PDF je na h...o. Zkonvertuj to do DjVu a máš po problému.
Jendа avatar 14.9.2015 21:54 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Jak přesně se ten problém konverzí vyřeší? Někde se samo od sebe objeví webové rozhraní, které bude dělat přesně to, co tazatel chce?
15.9.2015 07:35 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Může použít MediaWiki, tak jako já a nebo si to může napsat sám. Podstatné je, že pokud ty pdf soubory nemají textovou vrstvu, tak je může po konverzi prohnat přes ocr a tím ji získat. Velice snadno si pak může tyhle data vytáhnout do databáze a s jejich pomocí vyhledávat i v rámci těch původních PDF souborů, protože ty se nijak nezmění. Zobrazená stránka v Djvu bude mít stejné pořadí i rozměr jako u PDF. Akorát ten soubor bude řádově menší. U DjVu není problém pracovat a fulltextově vyhledávat i u souboru co má 1000 stran. Zkuste to u PDF. Zešílíte.
15.9.2015 07:41 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Prehladavanie PDF suborov a ich obsahu cez web aplikaciu
Ještě jinak. Znáte server http://www.archive.org ? Schválně se u některého z uložených dokumentů koukněte v jakých je uložených formátech. Prakticky každý z nich je k dispozici i v DjVu a ten důvod proč je přesně takový, jako řeší tazatel.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.