abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

včera 01:23 | Komunita

Phoronix spustil 2017 Linux Laptop Survey. Tento dotazník s otázkami zaměřenými na parametry ideálního notebooku s Linuxem lze vyplnit do 6. července.

Ladislav Hagara | Komentářů: 2
23.6. 22:44 | Nová verze

Po třech měsících vývoje od vydání verze 5.5.0 byla vydána verze 5.6.0 správce digitálních fotografií digiKam (digiKam Software Collection). Do digiKamu se mimo jiné vrátila HTML galerie a nástroj pro vytváření videa z fotografií. V Bugzille bylo uzavřeno více než 81 záznamů.

Ladislav Hagara | Komentářů: 1
23.6. 17:44 | Nová verze

Byla vydána verze 9.3 open source alternativy GitHubu, tj. softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech, GitLab. Představení nových vlastností v příspěvku na blogu a na YouTube.

Ladislav Hagara | Komentářů: 2
23.6. 13:53 | Nová verze

Simon Long představil na blogu Raspberry Pi novou verzi 2017-06-21 linuxové distribuce Raspbian určené především pro jednodeskové miniaturní počítače Raspberry Pi. Společně s Raspbianem byl aktualizován také instalační nástroj NOOBS (New Out Of the Box Software). Z novinek lze zdůraznit IDE Thonny pro vývoj v programovacím jazyce Python a především offline verzi Scratche 2.0. Ten bylo dosud možné používat pouze online. Offline bylo možné používat pouze Scratch ve verzi 1.4. Z nového Scratchu lze ovládat také GPIO piny. Scratch 2.0 vyžaduje Flash.

Ladislav Hagara | Komentářů: 0
22.6. 14:24 | Nová verze

Opera 46, verze 46.0.2597.26, byla prohlášena za stabilní. Nejnovější verze tohoto webového prohlížeče je postavena na Chromiu 59. Z novinek lze zmínit například podporu APNG (Animated Portable Network Graphics). Přehled novinek pro vývojáře na blogu Dev.Opera. Oznámení o vydání zmiňuje také první televizní reklamu.

Ladislav Hagara | Komentářů: 0
22.6. 13:37 | IT novinky

I čtenáři AbcLinuxu před dvěma lety vyplňovali dotazníky věnované Retro ThinkPadu. Nyní bylo potvrzeno, že iniciativa Retro ThinkPad je stále naživu a Lenovo připravuje speciální edici ThinkPadu jako součást oslav jeho 25. výročí.

Ladislav Hagara | Komentářů: 21
22.6. 10:22 | Komunita

Bylo oznámeno, že frontend a runtime programovacího jazyka D bude začleněn do kolekce kompilátorů GCC (GNU Compiler Collection). Správcem byl ustanoven Iain Buclaw.

Ladislav Hagara | Komentářů: 7
21.6. 18:47 | IT novinky
Bulharská firma Olimex je známá jako výrobce kvalitních mini arm desek, u nichž se snaží být maximálně open source. Kromě velké otevřenosti taktéž zaručují dlouhodobou podporu výroby, což je vítáno ve firemním prostředí. Nyní firma ohlásila ESP32-GATEWAY, malou IoT desku s Wifi, Bluetooth, Ethernetem a 20 GPIO porty za 22EUR. Tato malá deska je ořezanou verzí ESP32-EVB.
Max | Komentářů: 21
21.6. 18:00 | Zajímavý článek

LinuxGizmos (v dubnu loňského roku přejmenován na HackerBoards a v lednu letošního roku zpět na LinuxGizmos) zveřejnil výsledky čtenářské ankety o nejoblíbenější jednodeskový počítač (SBC) v roce 2017. Letos se vybíralo z 98 jednodeskových počítačů (Tabulky Google). Nejoblíbenějšími jednodeskovými počítači v letošním roce jsou Raspberry Pi 3 Model B, Raspberry Pi Zero W a Raspberry Pi 2 Model B.

Ladislav Hagara | Komentářů: 0
21.6. 14:22 | Pozvánky

Ne-konference jOpenSpace 2017 se koná od 13. do 15. října 2017 v hotelu Farma u Pelhřimova. Registrace účastníků je nutná. Více informací na stránkách ne-konference.

Zdenek H. | Komentářů: 0
Chystáte se pořídit CPU AMD Ryzen?
 (6%)
 (31%)
 (1%)
 (9%)
 (44%)
 (9%)
Celkem 830 hlasů
 Komentářů: 65, poslední 1.6. 19:16
    Rozcestník

    Dotaz: Převod PDF do prostého textu

    13.6.2010 15:22 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Převod PDF do prostého textu
    Přečteno: 352×

    Dobrý den,

    na převod PDF dokumentu jsem zkusil utilitku pdftotext, ale nebyl jsem spokojený s převodem diakritiky. Převádím česky psaný PDF do UTF-8 plaintextu.

    Chtěl jsem tudíž zkusit cestu, kdy nejdřív utilitkou convert převedu zmíněný PDF dokument na obrázek(y) třeba ve formátu PNG. Následně bych pomocí programu cuneiform převedl zmíněné obrázky na prostý text. Jenže jsem narazil. :-(

    Takto jsem postupoval:

    convert dokument.pdf dokument.png
    # Tímto jsem získal soubory: dokument-0.png až dokument-272.png.
    

    Uměl bych pomocí cuneiform -l cze -f text -o dokument-0.txt dokument-0.png převést jeden obrázek do plaintextu.

    Ale problémem je převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru.

    Abych to ještě víc osvětlil, tak zde je výpis ls v adresáři, kde se nachází již zmíněné PNG obrázky:

    dokument.pdf      dokument-118.png  dokument-139.png  dokument-16.png   dokument-180.png  dokument-200.png  dokument-221.png  dokument-242.png  dokument-263.png  dokument-39.png  dokument-6.png   dokument-80.png
    dokument-0.png    dokument-119.png  dokument-14.png   dokument-160.png  dokument-181.png  dokument-201.png  dokument-222.png  dokument-243.png  dokument-264.png  dokument-4.png   dokument-60.png  dokument-81.png
    dokument-1.png    dokument-12.png   dokument-140.png  dokument-161.png  dokument-182.png  dokument-202.png  dokument-223.png  dokument-244.png  dokument-265.png  dokument-40.png  dokument-61.png  dokument-82.png
    dokument-10.png   dokument-120.png  dokument-141.png  dokument-162.png  dokument-183.png  dokument-203.png  dokument-224.png  dokument-245.png  dokument-266.png  dokument-41.png  dokument-62.png  dokument-83.png
    dokument-100.png  dokument-121.png  dokument-142.png  dokument-163.png  dokument-184.png  dokument-204.png  dokument-225.png  dokument-246.png  dokument-267.png  dokument-42.png  dokument-63.png  dokument-84.png
    dokument-101.png  dokument-122.png  dokument-143.png  dokument-164.png  dokument-185.png  dokument-205.png  dokument-226.png  dokument-247.png  dokument-268.png  dokument-43.png  dokument-64.png  dokument-85.png
    dokument-102.png  dokument-123.png  dokument-144.png  dokument-165.png  dokument-186.png  dokument-206.png  dokument-227.png  dokument-248.png  dokument-269.png  dokument-44.png  dokument-65.png  dokument-86.png
    dokument-103.png  dokument-124.png  dokument-145.png  dokument-166.png  dokument-187.png  dokument-207.png  dokument-228.png  dokument-249.png  dokument-27.png   dokument-45.png  dokument-66.png  dokument-87.png
    dokument-104.png  dokument-125.png  dokument-146.png  dokument-167.png  dokument-188.png  dokument-208.png  dokument-229.png  dokument-25.png   dokument-270.png  dokument-46.png  dokument-67.png  dokument-88.png
    dokument-105.png  dokument-126.png  dokument-147.png  dokument-168.png  dokument-189.png  dokument-209.png  dokument-23.png   dokument-250.png  dokument-271.png  dokument-47.png  dokument-68.png  dokument-89.png
    dokument-106.png  dokument-127.png  dokument-148.png  dokument-169.png  dokument-19.png   dokument-21.png   dokument-230.png  dokument-251.png  dokument-272.png  dokument-48.png  dokument-69.png  dokument-9.png
    dokument-107.png  dokument-128.png  dokument-149.png  dokument-17.png   dokument-190.png  dokument-210.png  dokument-231.png  dokument-252.png  dokument-28.png   dokument-49.png  dokument-7.png   dokument-90.png
    dokument-108.png  dokument-129.png  dokument-15.png   dokument-170.png  dokument-191.png  dokument-211.png  dokument-232.png  dokument-253.png  dokument-29.png   dokument-5.png   dokument-70.png  dokument-91.png
    dokument-109.png  dokument-13.png   dokument-150.png  dokument-171.png  dokument-192.png  dokument-212.png  dokument-233.png  dokument-254.png  dokument-3.png    dokument-50.png  dokument-71.png  dokument-92.png
    dokument-11.png   dokument-130.png  dokument-151.png  dokument-172.png  dokument-193.png  dokument-213.png  dokument-234.png  dokument-255.png  dokument-30.png   dokument-51.png  dokument-72.png  dokument-93.png
    dokument-110.png  dokument-131.png  dokument-152.png  dokument-173.png  dokument-194.png  dokument-214.png  dokument-235.png  dokument-256.png  dokument-31.png   dokument-52.png  dokument-73.png  dokument-94.png
    dokument-111.png  dokument-132.png  dokument-153.png  dokument-174.png  dokument-195.png  dokument-215.png  dokument-236.png  dokument-257.png  dokument-32.png   dokument-53.png  dokument-74.png  dokument-95.png
    dokument-112.png  dokument-133.png  dokument-154.png  dokument-175.png  dokument-196.png  dokument-216.png  dokument-237.png  dokument-258.png  dokument-33.png   dokument-54.png  dokument-75.png  dokument-96.png
    dokument-113.png  dokument-134.png  dokument-155.png  dokument-176.png  dokument-197.png  dokument-217.png  dokument-238.png  dokument-259.png  dokument-34.png   dokument-55.png  dokument-76.png  dokument-97.png
    dokument-114.png  dokument-135.png  dokument-156.png  dokument-177.png  dokument-198.png  dokument-218.png  dokument-239.png  dokument-26.png   dokument-35.png   dokument-56.png  dokument-77.png  dokument-98.png
    dokument-115.png  dokument-136.png  dokument-157.png  dokument-178.png  dokument-199.png  dokument-219.png  dokument-24.png   dokument-260.png  dokument-36.png   dokument-57.png  dokument-78.png  dokument-99.png
    dokument-116.png  dokument-137.png  dokument-158.png  dokument-179.png  dokument-2.png    dokument-22.png   dokument-240.png  dokument-261.png  dokument-37.png   dokument-58.png  dokument-79.png
    dokument-117.png  dokument-138.png  dokument-159.png  dokument-18.png   dokument-20.png   dokument-220.png  dokument-241.png  dokument-262.png  dokument-38.png   dokument-59.png  dokument-8.png
    
    

    Budu vděčný za každou radu. Předem děkuju.


    Řešení dotazu:


    Odpovědi

    13.6.2010 15:32 Filip Jirsák | skóre: 66 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    GNU ls s parameterm -v vám ty soubory setřídí správně – dokument-0.png, dokument-1.png, dokument-2.png, …, dokument-10.png, dokument-11.png atd.
    13.6.2010 16:06 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru
    for txt in dokument-*.txt; do
      cuneiform -l cze -f text -o "${txt%.txt}.png" "$txt"
    done
    
    cat dokument-{0..272}.txt > dokument-final.txt
    13.6.2010 16:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu

    Děkuju oběma pánům za rady.

    Vyskytl se ale jiný problém — úplně zmršený text získaný pomocí cuneiform.

    Pokusím se to vyřešit sám. Pokud se mi to nepodaří vyřešit, tak vznesu dotaz zde ve fóru.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.