abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 13:22 | IT novinky

    Steve Jobs a superpočítač Cray-1 budou vyobrazeny na pamětních jednodolarových mincích vyražených v příštím roce v rámci série Americká inovace. Série má 57 mincí, tj. 57 inovací. Poslední 4 mince budou vyraženy v roce 2032.

    Ladislav Hagara | Komentářů: 0
    dnes 12:22 | Pozvánky

    Byl zveřejněn průběžně aktualizovaný program konference OpenAlt 2025 o otevřeném softwaru a datech, IT bezpečnosti, DIY a IoT. Konference proběhne o víkendu 1. a 2. listopadu v prostorách FIT VUT v Brně. Vstup je zdarma.

    Ladislav Hagara | Komentářů: 0
    dnes 12:00 | IT novinky

    Senát včera opětovně nepřijal návrh ústavního zákona, který měl do Listiny základních práv a svobod zakotvit právo občanů platit v hotovosti nebo být off-line. Návrh předložila skupina senátorů již v roce 2023. Senát dnes návrh neschválil, ale ani nezamítl. Pokud by ho přijal, dostala by ho k projednání Sněmovna a vyjádřila by se k němu vláda.

    Ladislav Hagara | Komentářů: 6
    včera 23:55 | Nová verze

    V programovacím jazyce Go naprogramovaná webová aplikace pro spolupráci na zdrojových kódech pomocí gitu Forgejo byla vydána ve verzi 13.0 (Mastodon). Forgejo je fork Gitei.

    Ladislav Hagara | Komentářů: 0
    včera 14:22 | Bezpečnostní upozornění

    Společnost Eclypsium se na svém blogu rozepsala o bezpečnostním problému počítačů Framework. Jedná se o zranitelnost v UEFI umožňující útočníkům obejít Secure Boot.

    Ladislav Hagara | Komentářů: 1
    včera 02:33 | Nová verze

    Editor kódů Zed (Wikipedie) po macOS a Linuxu s verzí 0.208.4běží také ve Windows.

    Ladislav Hagara | Komentářů: 6
    15.10. 17:44 | IT novinky

    Apple dnes představil 14palcový MacBook Pro, iPad Pro a Apple Vision Pro s novým čipem M5.

    Ladislav Hagara | Komentářů: 29
    15.10. 13:55 | Nová verze

    Debian pro mobilní zařízení Mobian (Wikipedie) byl vydán ve verzi 13 Trixie. Nová stabilní verze je k dispozici pro PINE64 PinePhone, PinePhone Pro a PineTab, Purism Librem 5, Google Pixel 3a a 3a XL, OnePlus 6 a 6T a Xiaomi Pocophone F1.

    Ladislav Hagara | Komentářů: 2
    15.10. 13:11 | IT novinky

    Operátor O2 představil tarif Datamanie 1200 GB . Nový tarif přináší 1200 GB dat s neomezenou 5G rychlostí, a také možnost neomezeného volání do všech sítí za 15 Kč na den. Při roční variantě předplatného zákazníci získají po provedení jednorázové platby celou porci dat najednou a mohou je bezstarostně čerpat kdykoli během roku. Do 13. listopadu jej O2 nabízí za zvýhodněných 2 988 Kč. Při průměrné spotřebě tak 100 GB dat vychází na 249 Kč měsíčně.

    Ladislav Hagara | Komentářů: 12
    15.10. 12:33 | Bezpečnostní upozornění

    Byly publikovány informace o útoku na zařízení s Androidem pojmenovaném Pixnapping Attack (CVE-2025-48561). Aplikace může číst citlivá data zobrazovaná jinou aplikací. V demonstračním videu aplikace čte 2FA kódy z Google Authenticatoru.

    Ladislav Hagara | Komentářů: 1
    Jaké řešení používáte k vývoji / práci?
     (38%)
     (46%)
     (19%)
     (21%)
     (24%)
     (18%)
     (21%)
     (18%)
     (18%)
    Celkem 231 hlasů
     Komentářů: 14, poslední 14.10. 09:04
    Rozcestník

    Dotaz: Převod PDF do prostého textu

    13.6.2010 15:22 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Převod PDF do prostého textu
    Přečteno: 403×

    Dobrý den,

    na převod PDF dokumentu jsem zkusil utilitku pdftotext, ale nebyl jsem spokojený s převodem diakritiky. Převádím česky psaný PDF do UTF-8 plaintextu.

    Chtěl jsem tudíž zkusit cestu, kdy nejdřív utilitkou convert převedu zmíněný PDF dokument na obrázek(y) třeba ve formátu PNG. Následně bych pomocí programu cuneiform převedl zmíněné obrázky na prostý text. Jenže jsem narazil. :-(

    Takto jsem postupoval:

    convert dokument.pdf dokument.png
    # Tímto jsem získal soubory: dokument-0.png až dokument-272.png.
    

    Uměl bych pomocí cuneiform -l cze -f text -o dokument-0.txt dokument-0.png převést jeden obrázek do plaintextu.

    Ale problémem je převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru.

    Abych to ještě víc osvětlil, tak zde je výpis ls v adresáři, kde se nachází již zmíněné PNG obrázky:

    dokument.pdf      dokument-118.png  dokument-139.png  dokument-16.png   dokument-180.png  dokument-200.png  dokument-221.png  dokument-242.png  dokument-263.png  dokument-39.png  dokument-6.png   dokument-80.png
    dokument-0.png    dokument-119.png  dokument-14.png   dokument-160.png  dokument-181.png  dokument-201.png  dokument-222.png  dokument-243.png  dokument-264.png  dokument-4.png   dokument-60.png  dokument-81.png
    dokument-1.png    dokument-12.png   dokument-140.png  dokument-161.png  dokument-182.png  dokument-202.png  dokument-223.png  dokument-244.png  dokument-265.png  dokument-40.png  dokument-61.png  dokument-82.png
    dokument-10.png   dokument-120.png  dokument-141.png  dokument-162.png  dokument-183.png  dokument-203.png  dokument-224.png  dokument-245.png  dokument-266.png  dokument-41.png  dokument-62.png  dokument-83.png
    dokument-100.png  dokument-121.png  dokument-142.png  dokument-163.png  dokument-184.png  dokument-204.png  dokument-225.png  dokument-246.png  dokument-267.png  dokument-42.png  dokument-63.png  dokument-84.png
    dokument-101.png  dokument-122.png  dokument-143.png  dokument-164.png  dokument-185.png  dokument-205.png  dokument-226.png  dokument-247.png  dokument-268.png  dokument-43.png  dokument-64.png  dokument-85.png
    dokument-102.png  dokument-123.png  dokument-144.png  dokument-165.png  dokument-186.png  dokument-206.png  dokument-227.png  dokument-248.png  dokument-269.png  dokument-44.png  dokument-65.png  dokument-86.png
    dokument-103.png  dokument-124.png  dokument-145.png  dokument-166.png  dokument-187.png  dokument-207.png  dokument-228.png  dokument-249.png  dokument-27.png   dokument-45.png  dokument-66.png  dokument-87.png
    dokument-104.png  dokument-125.png  dokument-146.png  dokument-167.png  dokument-188.png  dokument-208.png  dokument-229.png  dokument-25.png   dokument-270.png  dokument-46.png  dokument-67.png  dokument-88.png
    dokument-105.png  dokument-126.png  dokument-147.png  dokument-168.png  dokument-189.png  dokument-209.png  dokument-23.png   dokument-250.png  dokument-271.png  dokument-47.png  dokument-68.png  dokument-89.png
    dokument-106.png  dokument-127.png  dokument-148.png  dokument-169.png  dokument-19.png   dokument-21.png   dokument-230.png  dokument-251.png  dokument-272.png  dokument-48.png  dokument-69.png  dokument-9.png
    dokument-107.png  dokument-128.png  dokument-149.png  dokument-17.png   dokument-190.png  dokument-210.png  dokument-231.png  dokument-252.png  dokument-28.png   dokument-49.png  dokument-7.png   dokument-90.png
    dokument-108.png  dokument-129.png  dokument-15.png   dokument-170.png  dokument-191.png  dokument-211.png  dokument-232.png  dokument-253.png  dokument-29.png   dokument-5.png   dokument-70.png  dokument-91.png
    dokument-109.png  dokument-13.png   dokument-150.png  dokument-171.png  dokument-192.png  dokument-212.png  dokument-233.png  dokument-254.png  dokument-3.png    dokument-50.png  dokument-71.png  dokument-92.png
    dokument-11.png   dokument-130.png  dokument-151.png  dokument-172.png  dokument-193.png  dokument-213.png  dokument-234.png  dokument-255.png  dokument-30.png   dokument-51.png  dokument-72.png  dokument-93.png
    dokument-110.png  dokument-131.png  dokument-152.png  dokument-173.png  dokument-194.png  dokument-214.png  dokument-235.png  dokument-256.png  dokument-31.png   dokument-52.png  dokument-73.png  dokument-94.png
    dokument-111.png  dokument-132.png  dokument-153.png  dokument-174.png  dokument-195.png  dokument-215.png  dokument-236.png  dokument-257.png  dokument-32.png   dokument-53.png  dokument-74.png  dokument-95.png
    dokument-112.png  dokument-133.png  dokument-154.png  dokument-175.png  dokument-196.png  dokument-216.png  dokument-237.png  dokument-258.png  dokument-33.png   dokument-54.png  dokument-75.png  dokument-96.png
    dokument-113.png  dokument-134.png  dokument-155.png  dokument-176.png  dokument-197.png  dokument-217.png  dokument-238.png  dokument-259.png  dokument-34.png   dokument-55.png  dokument-76.png  dokument-97.png
    dokument-114.png  dokument-135.png  dokument-156.png  dokument-177.png  dokument-198.png  dokument-218.png  dokument-239.png  dokument-26.png   dokument-35.png   dokument-56.png  dokument-77.png  dokument-98.png
    dokument-115.png  dokument-136.png  dokument-157.png  dokument-178.png  dokument-199.png  dokument-219.png  dokument-24.png   dokument-260.png  dokument-36.png   dokument-57.png  dokument-78.png  dokument-99.png
    dokument-116.png  dokument-137.png  dokument-158.png  dokument-179.png  dokument-2.png    dokument-22.png   dokument-240.png  dokument-261.png  dokument-37.png   dokument-58.png  dokument-79.png
    dokument-117.png  dokument-138.png  dokument-159.png  dokument-18.png   dokument-20.png   dokument-220.png  dokument-241.png  dokument-262.png  dokument-38.png   dokument-59.png  dokument-8.png
    
    

    Budu vděčný za každou radu. Předem děkuju.


    Řešení dotazu:


    Odpovědi

    13.6.2010 15:32 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    GNU ls s parameterm -v vám ty soubory setřídí správně – dokument-0.png, dokument-1.png, dokument-2.png, …, dokument-10.png, dokument-11.png atd.
    13.6.2010 16:06 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru
    for txt in dokument-*.txt; do
      cuneiform -l cze -f text -o "${txt%.txt}.png" "$txt"
    done
    
    cat dokument-{0..272}.txt > dokument-final.txt
    13.6.2010 16:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu

    Děkuju oběma pánům za rady.

    Vyskytl se ale jiný problém — úplně zmršený text získaný pomocí cuneiform.

    Pokusím se to vyřešit sám. Pokud se mi to nepodaří vyřešit, tak vznesu dotaz zde ve fóru.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.