Portál AbcLinuxu, 1. května 2025 16:43

Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
progdan avatar 22.8.2008 01:01 progdan | skóre: 34 | blog: Archař | Teplice/Brno
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
Existuje napriklad programek PDF2HTML (jasny ze idealni by bylo pdf2txt, ale nic takovyho sem neobjevil kdyz sem pred par mesici resil podobny problem)...z toho HTML pak uz jen staci zkopirovat slova do obycejneho textaku, zaindexovat to uz by pak nemel bejt problem
Collecting data is only the first step toward wisdom, but sharing data is the first step toward the community.
bazil avatar 22.8.2008 01:28 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
hmm řešení zajímavé, jen si nemyslím, že by potom seděly stránky, když HTML žádné v podstatě nemá
22.8.2008 01:15 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
Nevím jesi chápu přesně vo co se snažíš a jak, ale doporučuju něco menšího napsat v nějakém tom jazyce, hodí se např. hledat googlem případně kouknout na wiki kde je základní popis formátu.

Nebo jsem to špatně pochopil a máš tu A4ku fyzicky? V takovém případě bych radil podívat se po OCR softwaru.
SPD vůbec není proruská
bazil avatar 22.8.2008 01:28 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
jo ta A4ka je fyzicky ... ty slova z A4ky opíšu klidně ručně, ale nechcu každé slovo ručně hledat v celém dokumentu a pak psát, kde všude se vyskytuje ...
22.8.2008 02:07 Ketling | skóre: 8
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
pdftotext - Portable Document Format (PDF) to text converter.

No a potom na to pustiť nejaký skript.
otula avatar 22.8.2008 08:13 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
Narazil jsem na Zilverine, možná pomůže (nevím, co přesně dělá, ale píše se tam o indexování pdf)
Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
bazil avatar 22.8.2008 08:43 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
jo ale tady se indexací myslí vyhledávání ...
22.8.2008 09:46 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
Rozlož pdf na stránky, převeď je do textu. Pak už to skriptíkem dáš dohromady.
-- Nezdar není hanbou, hanbou je strach z pokusu.
bazil avatar 22.8.2008 10:05 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
hmmm to zní dobře, jen jak to PDF mám rozkopat na stránky?
22.8.2008 10:11 klingger | skóre: 18
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Napríklad pdftk to vie.
xsubway avatar 22.8.2008 10:30 xsubway | skóre: 13 | blog: litera_scripta_manet
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
pro konverzi PDF na text lze pouzit pdftotext ... v textu je vlozen page-break symbol ^L ;) ... dalsi namety: How to Index Anything ;)
bazil avatar 22.8.2008 10:32 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
aaaha, díky, teď už to pude nějak oskriptovat ;-)
Daniel Kvasnička ml. avatar 22.8.2008 13:46 Daniel Kvasnička ml. | skóre: 52 | blog: The Joys and Sorrows of Being an IT Freak | Ostrava
Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
Odpovědět | Sbalit | Link | Blokovat | Admin
Co tohle? http://www.zotero.org/documentation/pdf_fulltext_indexing
FSF: “screw you for not wanting the stuff we produce”, People: “screw you for not producing the stuff we want."

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.