abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 14:22 | Komunita

    Greg Kroah-Hartman začal používat AI asistenta pojmenovaného gkh_clanker_t1000. V commitech se objevuje "Assisted-by: gkh_clanker_t1000". Na social.kernel.org publikoval jeho fotografii. Jedná se o Framework Desktop s AMD Ryzen AI Max a lokální LLM.

    Ladislav Hagara | Komentářů: 1
    dnes 04:44 | Komunita

    Ubuntu 26.10 bude Stonking Stingray (úžasný rejnok).

    Ladislav Hagara | Komentářů: 1
    včera 22:22 | Nová verze

    Webový prohlížeč Dillo (Wikipedie) byl vydán ve verzi 3.3.0. S experimentální podporou FLTK 1.4. S příkazem dilloc pro ovládání prohlížeče z příkazové řádky. Vývoj prohlížeče se přesunul z GitHubu na vlastní doménu dillo-browser.org (Git).

    Ladislav Hagara | Komentářů: 1
    včera 21:55 | Komunita

    Byl publikován přehled dění a novinek z vývoje Asahi Linuxu, tj. Linuxu pro Apple Silicon. Vývojáři v přehledu vypíchli vylepšenou instalaci, podporu senzoru okolního světla, úsporu energie, opravy Bluetooth nebo zlepšení audia. Vývoj lze podpořit na Open Collective a GitHub Sponsors.

    Ladislav Hagara | Komentářů: 1
    25.4. 04:00 | Nová verze

    raylib (Wikipedie), tj. multiplatformní open-source knihovna pro vývoj grafických aplikací a her, byla vydána ve verzi 6.0.

    Ladislav Hagara | Komentářů: 0
    24.4. 18:33 | IT novinky

    Nové verze AI modelů. Společnost OpenAI představila GPT‑5.5. Společnost DeepSeek představila DeepSeek V4.

    Ladislav Hagara | Komentářů: 0
    24.4. 15:33 | Zajímavý článek

    Nová čísla časopisů od nakladatelství Raspberry Pi zdarma ke čtení: Raspberry Pi Official Magazine 164 (pdf) a Hello World 29 (pdf).

    Ladislav Hagara | Komentářů: 0
    24.4. 04:44 | Komunita

    Bylo oznámeno, že webový prohlížeč Opera GX zaměřený na hráče počítačových her je už také na Flathubu and Snapcraftu.

    Ladislav Hagara | Komentářů: 0
    23.4. 23:11 | IT novinky

    Akcionáři americké mediální společnosti Warner Bros. Discovery dnes schválili převzetí firmy konkurentem Paramount Skydance za zhruba 110 miliard dolarů (téměř 2,3 bilionu Kč). Firmy se na spojení dohodly v únoru. O část společnosti Warner Bros. Discovery dříve usilovala rovněž streamovací platforma Netflix, se svou nabídkou však neuspěla. Transakci ještě budou schvalovat regulační orgány, a to nejen ve Spojených státech, ale také

    … více »
    Ladislav Hagara | Komentářů: 0
    23.4. 22:33 | Nová verze

    Canonical vydal (email, blog, YouTube) Ubuntu 26.04 LTS Resolute Raccoon. Přehled novinek v poznámkách k vydání. Vydány byly také oficiální deriváty Edubuntu, Kubuntu, Lubuntu, Ubuntu Budgie, Ubuntu Cinnamon, Ubuntu Kylin, Ubuntu Studio, Ubuntu Unity a Xubuntu. Jedná se o 11. vydání s dlouhodobou podporou (LTS).

    Ladislav Hagara | Komentářů: 2
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (8%)
     (2%)
     (13%)
     (31%)
     (3%)
     (6%)
     (2%)
     (15%)
     (25%)
    Celkem 1434 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Vytvoření fulltext indexu v PDF - dotaz

    22.8.2008 00:22 | Přečteno: 1275× | blbůstky

    Tak se mi tu tak válí jeden hezký PDF soubor. On vlastně není ani tak moc hezký, jako PDF a já v něm potřebuju udělat fulltext index.

    A by toho trápení nebylo málo, tak tu mám asi tak A4ku zadanejch slov, který se maj v tom indexu objevit. Index to má být klasickej. V levo slovo v pravo seznam stránek, na kterejch se vyskytuje. Vcelku jasná vyzuální podoba, ale jak to udělat automaticky? Ručně to určitě psát nechci, nehledě na to, že bych se mohl přehlídnout. Akceptuji jakékoliv řešení (tzn i windows) Díky.

           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    progdan avatar 22.8.2008 01:01 progdan | skóre: 34 | blog: Archař | Teplice/Brno
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Existuje napriklad programek PDF2HTML (jasny ze idealni by bylo pdf2txt, ale nic takovyho sem neobjevil kdyz sem pred par mesici resil podobny problem)...z toho HTML pak uz jen staci zkopirovat slova do obycejneho textaku, zaindexovat to uz by pak nemel bejt problem
    Collecting data is only the first step toward wisdom, but sharing data is the first step toward the community.
    bazil avatar 22.8.2008 01:28 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    hmm řešení zajímavé, jen si nemyslím, že by potom seděly stránky, když HTML žádné v podstatě nemá
    22.8.2008 01:15 kralyk z abclinuxu | skóre: 29 | blog:
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Nevím jesi chápu přesně vo co se snažíš a jak, ale doporučuju něco menšího napsat v nějakém tom jazyce, hodí se např. hledat googlem případně kouknout na wiki kde je základní popis formátu.

    Nebo jsem to špatně pochopil a máš tu A4ku fyzicky? V takovém případě bych radil podívat se po OCR softwaru.
    bazil avatar 22.8.2008 01:28 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    jo ta A4ka je fyzicky ... ty slova z A4ky opíšu klidně ručně, ale nechcu každé slovo ručně hledat v celém dokumentu a pak psát, kde všude se vyskytuje ...
    22.8.2008 02:07 Ketling | skóre: 8
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    pdftotext - Portable Document Format (PDF) to text converter.

    No a potom na to pustiť nejaký skript.
    otula avatar 22.8.2008 08:13 otula | skóre: 45 | blog: otakar | Adamov
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Narazil jsem na Zilverine, možná pomůže (nevím, co přesně dělá, ale píše se tam o indexování pdf)
    Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
    bazil avatar 22.8.2008 08:43 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    jo ale tady se indexací myslí vyhledávání ...
    22.8.2008 09:46 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Rozlož pdf na stránky, převeď je do textu. Pak už to skriptíkem dáš dohromady.
    -- Nezdar není hanbou, hanbou je strach z pokusu.
    bazil avatar 22.8.2008 10:05 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    hmmm to zní dobře, jen jak to PDF mám rozkopat na stránky?
    22.8.2008 10:11 klingger | skóre: 18
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Napríklad pdftk to vie.
    xsubway avatar 22.8.2008 10:30 xsubway | skóre: 13 | blog: litera_scripta_manet
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    pro konverzi PDF na text lze pouzit pdftotext ... v textu je vlozen page-break symbol ^L ;) ... dalsi namety: How to Index Anything ;)
    bazil avatar 22.8.2008 10:32 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    aaaha, díky, teď už to pude nějak oskriptovat ;-)
    Daniel Kvasnička ml. avatar 22.8.2008 13:46 Daniel Kvasnička ml. | skóre: 52 | blog: The Joys and Sorrows of Being an IT Freak | Ostrava
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Co tohle? http://www.zotero.org/documentation/pdf_fulltext_indexing
    FSF: “screw you for not wanting the stuff we produce”, People: “screw you for not producing the stuff we want."

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.