abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 10:00 | Komunita

    V Brně na FIT VUT probíhá třídenní open source komunitní konference DevConf.CZ 2025. Vstup je zdarma, nutná je ale registrace. Na programu je celá řada zajímavých přednášek, lightning talků, meetupů a workshopů. Přednášky lze sledovat i online na YouTube kanálu konference. Aktuální dění lze sledovat na Matrixu, 𝕏 nebo Mastodonu.

    Ladislav Hagara | Komentářů: 0
    dnes 09:44 | IT novinky

    Vyloučení technologií, které by mohly představovat bezpečnostní riziko pro stát, má umožnit zákon o kybernetické bezpečnosti, který včera Senát schválil spolu s novelami navazujících právních předpisů. Norma, kterou nyní dostane k podpisu prezident, počítá rovněž s prověřováním dodavatelů technologií pro stát. Normy mají nabýt účinnosti od třetího měsíce po jejich vyhlášení ve Sbírce zákonů.

    Ladislav Hagara | Komentářů: 8
    dnes 01:11 | Nová verze

    Open source platforma Home Assistant (Demo, GitHub, Wikipedie) pro monitorování a řízení inteligentní domácnosti byla vydána v nové verzi 2025.6.

    Ladislav Hagara | Komentářů: 0
    dnes 00:55 | Nová verze

    Po Red Hat Enterprise Linuxu a AlmaLinuxu byl v nové stabilní verzi 10.0 vydán také Rocky Linux. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 22:55 | Nová verze

    Bylo vydáno Eclipse IDE 2025-06 aneb Eclipse 4.36. Představení novinek tohoto integrovaného vývojového prostředí také na YouTube.

    Ladislav Hagara | Komentářů: 0
    včera 22:33 | IT novinky

    Americká filmová studia Walt Disney a Universal Pictures podala žalobu na provozovatele populárního generátoru obrázků pomocí umělé inteligence (AI) Midjourney. Zdůvodňují to údajným porušováním autorských práv. V žalobě podané u federálního soudu v Los Angeles označují firmu za „bezednou jámu plagiátorství“, neboť podle nich bez povolení bezostyšně kopíruje a šíří postavy z filmů jako Star Wars, Ledové království nebo Já, padouch, aniž by do nich investovala jediný cent.

    Ladislav Hagara | Komentářů: 1
    včera 18:33 | IT novinky

    Ultra Ethernet Consortium (UEC), jehož cílem je optimalizace a další vývoj Ethernetu s důrazem na rostoucí síťové požadavky AI a HPC, vydalo specifikaci Ultra Ethernet 1.0 (pdf, YouTube).

    Ladislav Hagara | Komentářů: 0
    včera 13:00 | IT novinky

    Francouzský prezident Emmanuel Macron chce zakázat přístup na sociální sítě pro děti do 15 let. Francie podle něj tento krok udělá sama do několika měsíců, i pokud se na něm neshodnou další státy Evropské unie. Reaguje tak na úterní vraždu vychovatelky, kterou ve východofrancouzském městě Nogent pobodal 14letý mladík. Jednotlivé sociální sítě podle něj mají možnost věk ověřit a vymáhat zákaz pomocí systémů na rozpoznávání tváří.

    Ladislav Hagara | Komentářů: 11
    včera 05:11 | IT novinky

    Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Nejvýkonnějším superpočítačem zůstává El Capitan od HPE (Cray) s výkonem 1,742 exaFLOPS. Druhý Frontier má výkon 1,353 exaFLOPS. Třetí Aurora má výkon 1,012 exaFLOPS. Nejvýkonnější český počítač C24 klesl na 165 místo. Karolina, GPU partition klesla na 195. místo a Karolina, CPU partition na 421. místo. Další přehledy a statistiky na stránkách projektu.

    Ladislav Hagara | Komentářů: 0
    10.6. 22:33 | Nová verze

    Oficiálně byl vydán Android 16. Detaily na blogu a stránkách věnovaných vývojářům.

    Ladislav Hagara | Komentářů: 5
    Jaký je váš oblíbený skriptovací jazyk?
     (55%)
     (31%)
     (7%)
     (2%)
     (0%)
     (1%)
     (3%)
    Celkem 254 hlasů
     Komentářů: 16, poslední 8.6. 21:05
    Rozcestník

    Vytvoření fulltext indexu v PDF - dotaz

    22.8.2008 00:22 | Přečteno: 1206× | blbůstky

    Tak se mi tu tak válí jeden hezký PDF soubor. On vlastně není ani tak moc hezký, jako PDF a já v něm potřebuju udělat fulltext index.

    A by toho trápení nebylo málo, tak tu mám asi tak A4ku zadanejch slov, který se maj v tom indexu objevit. Index to má být klasickej. V levo slovo v pravo seznam stránek, na kterejch se vyskytuje. Vcelku jasná vyzuální podoba, ale jak to udělat automaticky? Ručně to určitě psát nechci, nehledě na to, že bych se mohl přehlídnout. Akceptuji jakékoliv řešení (tzn i windows) Díky.

           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    progdan avatar 22.8.2008 01:01 progdan | skóre: 34 | blog: Archař | Teplice/Brno
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Existuje napriklad programek PDF2HTML (jasny ze idealni by bylo pdf2txt, ale nic takovyho sem neobjevil kdyz sem pred par mesici resil podobny problem)...z toho HTML pak uz jen staci zkopirovat slova do obycejneho textaku, zaindexovat to uz by pak nemel bejt problem
    Collecting data is only the first step toward wisdom, but sharing data is the first step toward the community.
    bazil avatar 22.8.2008 01:28 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    hmm řešení zajímavé, jen si nemyslím, že by potom seděly stránky, když HTML žádné v podstatě nemá
    22.8.2008 01:15 kralyk z abclinuxu | skóre: 29 | blog:
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Nevím jesi chápu přesně vo co se snažíš a jak, ale doporučuju něco menšího napsat v nějakém tom jazyce, hodí se např. hledat googlem případně kouknout na wiki kde je základní popis formátu.

    Nebo jsem to špatně pochopil a máš tu A4ku fyzicky? V takovém případě bych radil podívat se po OCR softwaru.
    bazil avatar 22.8.2008 01:28 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    jo ta A4ka je fyzicky ... ty slova z A4ky opíšu klidně ručně, ale nechcu každé slovo ručně hledat v celém dokumentu a pak psát, kde všude se vyskytuje ...
    22.8.2008 02:07 Ketling | skóre: 8
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    pdftotext - Portable Document Format (PDF) to text converter.

    No a potom na to pustiť nejaký skript.
    otula avatar 22.8.2008 08:13 otula | skóre: 45 | blog: otakar | Adamov
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Narazil jsem na Zilverine, možná pomůže (nevím, co přesně dělá, ale píše se tam o indexování pdf)
    Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
    bazil avatar 22.8.2008 08:43 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    jo ale tady se indexací myslí vyhledávání ...
    22.8.2008 09:46 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Rozlož pdf na stránky, převeď je do textu. Pak už to skriptíkem dáš dohromady.
    -- Nezdar není hanbou, hanbou je strach z pokusu.
    bazil avatar 22.8.2008 10:05 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    hmmm to zní dobře, jen jak to PDF mám rozkopat na stránky?
    22.8.2008 10:11 klingger | skóre: 18
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Napríklad pdftk to vie.
    xsubway avatar 22.8.2008 10:30 xsubway | skóre: 13 | blog: litera_scripta_manet
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    pro konverzi PDF na text lze pouzit pdftotext ... v textu je vlozen page-break symbol ^L ;) ... dalsi namety: How to Index Anything ;)
    bazil avatar 22.8.2008 10:32 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    aaaha, díky, teď už to pude nějak oskriptovat ;-)
    Daniel Kvasnička ml. avatar 22.8.2008 13:46 Daniel Kvasnička ml. | skóre: 52 | blog: The Joys and Sorrows of Being an IT Freak | Ostrava
    Rozbalit Rozbalit vše Re: Vytvoření fulltext indexu v PDF - dotaz
    Co tohle? http://www.zotero.org/documentation/pdf_fulltext_indexing
    FSF: “screw you for not wanting the stuff we produce”, People: “screw you for not producing the stuff we want."

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.