abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 22:22 | Nová verze

    Byla vydána nová verze 9.7 multiplatformní digitální pracovní stanice pro práci s audiem (DAW) Ardour. Přehled novinek, vylepšení a oprav v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 18:22 | Komunita

    Vývojáři webového prohlížeče Ladybird dnes oznámili, že mění způsob vývoje. S blížícím se vydáním alfa verze přestávají přijímat veřejné pull requesty. Všechny otevřené veřejné pull requesty budou uzavřeny. Tým nedokáže garantovat bezpečnost AI generovaných pull requestů.

    Ladislav Hagara | Komentářů: 2
    včera 17:33 | Zajímavý software

    OpenLogi (GitHub) je open source náhrada aplikace Logi Options+ pro přizpůsobení myší od společnosti Logitech. Zatím běží pouze na macOS.

    Ladislav Hagara | Komentářů: 0
    včera 04:33 | Nová verze

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za květen (YouTube).

    Ladislav Hagara | Komentářů: 9
    4.6. 11:22 | Bezpečnostní upozornění

    Úřad pro ochranu osobních údajů řeší desítky stížností na jednotné měsíční hlášení zaměstnavatele, které stát spustil počátkem dubna. Systém, jenž má firmám odlehčit od desítek formulářů, nejenže výrazně zatížil jejich účetní oddělení, ale docházelo v něm i k únikům osobních dat zaměstnanců k firmám, kde nepracovali. Podle ministerstva práce a sociálních věcí stála za problémem technická chyba. „Incident se týkal několika stovek

    … více »
    Ladislav Hagara | Komentářů: 15
    4.6. 10:46 | Nová verze

    Byla vydána (𝕏, Bluesky) nová verze 22.0.0 open source webového aplikačního frameworku Angular (Wikipedie). Přehled novinek v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    4.6. 04:33 | Nová verze

    Vim Classic byl vydán ve verzi 8.3. Drew DeVault oznámil tento fork editoru Vim (verze 8.2.0148, tj. těsně před zavedením Vim9 skriptování) v březnu letošního roku. Důvodem forku bylo, že vývojáři editorů Vim a Neovim začali při vývoji využívat LLM.

    Ladislav Hagara | Komentářů: 7
    4.6. 03:44 | Komunita

    Open source konference DevConf.CZ 2026 proběhne 18. a 19. června v Brně na FIT VUT. Publikován byl program a spuštěna byla registrace.

    Ladislav Hagara | Komentářů: 0
    3.6. 19:44 | Nová verze

    Společnost JetBrains uvolnila verzi 2 svého open-source velkého jazykového modelu (LLM) pro vývojáře Mellum.

    Ladislav Hagara | Komentářů: 0
    3.6. 14:44 | IT novinky

    Probíhá konference Microsoft Build 2026. Microsoft představuje své novinky: kvantový čip Majorana 2, Surface Laptop Ultra a Surface RTX Spark Dev Box s NVIDIA RTX Spark, Intelligent Terminal, Coreutils for Windows (fork Rust Coreutils), AI modely MAI, AI agenta Scout, platformu pro agent-first zařízení Project Solara, …

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (12%)
     (8%)
     (2%)
     (15%)
     (31%)
     (3%)
     (6%)
     (3%)
     (15%)
     (26%)
    Celkem 1830 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník


    Dotaz: Převod PDF do prostého textu

    13.6.2010 15:22 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Převod PDF do prostého textu
    Přečteno: 432×

    Dobrý den,

    na převod PDF dokumentu jsem zkusil utilitku pdftotext, ale nebyl jsem spokojený s převodem diakritiky. Převádím česky psaný PDF do UTF-8 plaintextu.

    Chtěl jsem tudíž zkusit cestu, kdy nejdřív utilitkou convert převedu zmíněný PDF dokument na obrázek(y) třeba ve formátu PNG. Následně bych pomocí programu cuneiform převedl zmíněné obrázky na prostý text. Jenže jsem narazil. :-(

    Takto jsem postupoval:

    convert dokument.pdf dokument.png
    # Tímto jsem získal soubory: dokument-0.png až dokument-272.png.
    

    Uměl bych pomocí cuneiform -l cze -f text -o dokument-0.txt dokument-0.png převést jeden obrázek do plaintextu.

    Ale problémem je převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru.

    Abych to ještě víc osvětlil, tak zde je výpis ls v adresáři, kde se nachází již zmíněné PNG obrázky:

    dokument.pdf      dokument-118.png  dokument-139.png  dokument-16.png   dokument-180.png  dokument-200.png  dokument-221.png  dokument-242.png  dokument-263.png  dokument-39.png  dokument-6.png   dokument-80.png
    dokument-0.png    dokument-119.png  dokument-14.png   dokument-160.png  dokument-181.png  dokument-201.png  dokument-222.png  dokument-243.png  dokument-264.png  dokument-4.png   dokument-60.png  dokument-81.png
    dokument-1.png    dokument-12.png   dokument-140.png  dokument-161.png  dokument-182.png  dokument-202.png  dokument-223.png  dokument-244.png  dokument-265.png  dokument-40.png  dokument-61.png  dokument-82.png
    dokument-10.png   dokument-120.png  dokument-141.png  dokument-162.png  dokument-183.png  dokument-203.png  dokument-224.png  dokument-245.png  dokument-266.png  dokument-41.png  dokument-62.png  dokument-83.png
    dokument-100.png  dokument-121.png  dokument-142.png  dokument-163.png  dokument-184.png  dokument-204.png  dokument-225.png  dokument-246.png  dokument-267.png  dokument-42.png  dokument-63.png  dokument-84.png
    dokument-101.png  dokument-122.png  dokument-143.png  dokument-164.png  dokument-185.png  dokument-205.png  dokument-226.png  dokument-247.png  dokument-268.png  dokument-43.png  dokument-64.png  dokument-85.png
    dokument-102.png  dokument-123.png  dokument-144.png  dokument-165.png  dokument-186.png  dokument-206.png  dokument-227.png  dokument-248.png  dokument-269.png  dokument-44.png  dokument-65.png  dokument-86.png
    dokument-103.png  dokument-124.png  dokument-145.png  dokument-166.png  dokument-187.png  dokument-207.png  dokument-228.png  dokument-249.png  dokument-27.png   dokument-45.png  dokument-66.png  dokument-87.png
    dokument-104.png  dokument-125.png  dokument-146.png  dokument-167.png  dokument-188.png  dokument-208.png  dokument-229.png  dokument-25.png   dokument-270.png  dokument-46.png  dokument-67.png  dokument-88.png
    dokument-105.png  dokument-126.png  dokument-147.png  dokument-168.png  dokument-189.png  dokument-209.png  dokument-23.png   dokument-250.png  dokument-271.png  dokument-47.png  dokument-68.png  dokument-89.png
    dokument-106.png  dokument-127.png  dokument-148.png  dokument-169.png  dokument-19.png   dokument-21.png   dokument-230.png  dokument-251.png  dokument-272.png  dokument-48.png  dokument-69.png  dokument-9.png
    dokument-107.png  dokument-128.png  dokument-149.png  dokument-17.png   dokument-190.png  dokument-210.png  dokument-231.png  dokument-252.png  dokument-28.png   dokument-49.png  dokument-7.png   dokument-90.png
    dokument-108.png  dokument-129.png  dokument-15.png   dokument-170.png  dokument-191.png  dokument-211.png  dokument-232.png  dokument-253.png  dokument-29.png   dokument-5.png   dokument-70.png  dokument-91.png
    dokument-109.png  dokument-13.png   dokument-150.png  dokument-171.png  dokument-192.png  dokument-212.png  dokument-233.png  dokument-254.png  dokument-3.png    dokument-50.png  dokument-71.png  dokument-92.png
    dokument-11.png   dokument-130.png  dokument-151.png  dokument-172.png  dokument-193.png  dokument-213.png  dokument-234.png  dokument-255.png  dokument-30.png   dokument-51.png  dokument-72.png  dokument-93.png
    dokument-110.png  dokument-131.png  dokument-152.png  dokument-173.png  dokument-194.png  dokument-214.png  dokument-235.png  dokument-256.png  dokument-31.png   dokument-52.png  dokument-73.png  dokument-94.png
    dokument-111.png  dokument-132.png  dokument-153.png  dokument-174.png  dokument-195.png  dokument-215.png  dokument-236.png  dokument-257.png  dokument-32.png   dokument-53.png  dokument-74.png  dokument-95.png
    dokument-112.png  dokument-133.png  dokument-154.png  dokument-175.png  dokument-196.png  dokument-216.png  dokument-237.png  dokument-258.png  dokument-33.png   dokument-54.png  dokument-75.png  dokument-96.png
    dokument-113.png  dokument-134.png  dokument-155.png  dokument-176.png  dokument-197.png  dokument-217.png  dokument-238.png  dokument-259.png  dokument-34.png   dokument-55.png  dokument-76.png  dokument-97.png
    dokument-114.png  dokument-135.png  dokument-156.png  dokument-177.png  dokument-198.png  dokument-218.png  dokument-239.png  dokument-26.png   dokument-35.png   dokument-56.png  dokument-77.png  dokument-98.png
    dokument-115.png  dokument-136.png  dokument-157.png  dokument-178.png  dokument-199.png  dokument-219.png  dokument-24.png   dokument-260.png  dokument-36.png   dokument-57.png  dokument-78.png  dokument-99.png
    dokument-116.png  dokument-137.png  dokument-158.png  dokument-179.png  dokument-2.png    dokument-22.png   dokument-240.png  dokument-261.png  dokument-37.png   dokument-58.png  dokument-79.png
    dokument-117.png  dokument-138.png  dokument-159.png  dokument-18.png   dokument-20.png   dokument-220.png  dokument-241.png  dokument-262.png  dokument-38.png   dokument-59.png  dokument-8.png
    
    

    Budu vděčný za každou radu. Předem děkuju.


    Řešení dotazu:


    Odpovědi

    13.6.2010 15:32 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    GNU ls s parameterm -v vám ty soubory setřídí správně – dokument-0.png, dokument-1.png, dokument-2.png, …, dokument-10.png, dokument-11.png atd.
    13.6.2010 16:06 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru
    for txt in dokument-*.txt; do
      cuneiform -l cze -f text -o "${txt%.txt}.png" "$txt"
    done
    
    cat dokument-{0..272}.txt > dokument-final.txt
    13.6.2010 16:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu

    Děkuju oběma pánům za rady.

    Vyskytl se ale jiný problém — úplně zmršený text získaný pomocí cuneiform.

    Pokusím se to vyřešit sám. Pokud se mi to nepodaří vyřešit, tak vznesu dotaz zde ve fóru.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.