abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

včera 18:55 | Nová verze

Byla vydána nová stabilní verze 1.9 (1.9.818.44) webového prohlížeče Vivaldi (Wikipedie). Z novinek vývojáři zdůrazňují podporu nového vyhledávače Ecosia. Ten z příjmů z reklam podporuje výsadbu stromů po celém světě (YouTube). Nově lze přeskupovat ikonky rozšíření nebo řadit poznámky. Nejnovější Vivaldi je postaveno na Chromiu 58.0.3029.82.

Ladislav Hagara | Komentářů: 3
včera 17:00 | Nová verze

Byla vydána verze 3.7.0 svobodného systému pro správu obsahu (CMS) Joomla!. V oznámení o vydání (YouTube) se píše o 700 vylepšeních. Opraveno bylo také 8 bezpečnostních chyb.

Ladislav Hagara | Komentářů: 0
včera 08:22 | Komunita

Grsecurity (Wikipedie) je sada bezpečnostních patchů pro linuxové jádro (porovnání se SELinuxem, AppArmorem a KSPP). Od září 2015 nejsou stabilní verze těchto patchů volně k dispozici. Dle včerejšího oznámení (FAQ) nejsou s okamžitou platností volně k dispozici už ani jejich testovací verze.

Ladislav Hagara | Komentářů: 32
26.4. 23:33 | Komunita

OpenBSD 6.1 vyšlo již 11. dubna. Po dvou týdnech byla vydána i oficiální píseň. Její název je Winter of 95 a k dispozici je ve formátech MP3 a OGG.

Ladislav Hagara | Komentářů: 0
26.4. 18:55 | Nová verze

Byla vydána verze 2017.1 linuxové distribuce navržené pro digitální forenzní analýzu a penetrační testování Kali Linux. S vydáním verze 2016.1 se Kali Linux stal průběžně aktualizovanou distribucí. Aktualizovat jej lze pomocí příkazů "apt update; apt dist-upgrade; reboot".

Ladislav Hagara | Komentářů: 0
26.4. 18:22 | Nová verze

Po téměř pěti letech od vydání verze 2.00 byla vydána nová stabilní verze 2.02 systémového zavaděče GNU GRUB (GRand Unified Bootloader). Přehled novinek v souboru NEWS.

Ladislav Hagara | Komentářů: 15
26.4. 17:55 | Komunita

Vývojáři Debianu oznámili, že od 1. listopadu letošního roku nebudou jejich archivy dostupné pomocí protokolu FTP. Již v lednu oznámil ukončení podpory FTP kernel.org (The Linux Kernel Archives).

Ladislav Hagara | Komentářů: 23
26.4. 17:00 | Bezpečnostní upozornění

V oblíbeném webmailu postaveném na PHP SquirrelMail (Wikipedie) byla nalezena bezpečnostní chyba CVE-2017-7692, jež může být útočníkem zneužita ke spuštění libovolných příkazů a kompletnímu ovládnutí dotčeného serveru. Zranitelnost se týká pouze instancí, kde je pro transport používán Sendmail.

Ladislav Hagara | Komentářů: 3
26.4. 13:11 | Zajímavý článek

Soudní dvůr Evropské unie rozhodl (tisková zpráva) ve věci C-527/15: Prodej multimediálního přehrávače, který umožňuje zdarma a jednoduše zhlédnout na televizní obrazovce filmy protiprávně zpřístupněné na internetu, může představovat porušení autorského práva.

Ladislav Hagara | Komentářů: 32
25.4. 13:33 | Pozvánky

Byly stanoveny termíny konferencí LinuxDays 2017 a OpenAlt 2017. Letošní LinuxDays proběhne o víkendu 7. a 8. října v Praze v Dejvicích v prostorách FIT ČVUT. Letošní OpenAlt proběhne o víkendu 4. a 5. listopadu na FIT VUT v Brně.

Ladislav Hagara | Komentářů: 0
Chystáte se pořídit CPU AMD Ryzen?
 (4%)
 (35%)
 (1%)
 (6%)
 (45%)
 (9%)
Celkem 327 hlasů
 Komentářů: 50, poslední včera 04:06
    Rozcestník

    Dotaz: Převod PDF do prostého textu

    13.6.2010 15:22 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Převod PDF do prostého textu
    Přečteno: 352×

    Dobrý den,

    na převod PDF dokumentu jsem zkusil utilitku pdftotext, ale nebyl jsem spokojený s převodem diakritiky. Převádím česky psaný PDF do UTF-8 plaintextu.

    Chtěl jsem tudíž zkusit cestu, kdy nejdřív utilitkou convert převedu zmíněný PDF dokument na obrázek(y) třeba ve formátu PNG. Následně bych pomocí programu cuneiform převedl zmíněné obrázky na prostý text. Jenže jsem narazil. :-(

    Takto jsem postupoval:

    convert dokument.pdf dokument.png
    # Tímto jsem získal soubory: dokument-0.png až dokument-272.png.
    

    Uměl bych pomocí cuneiform -l cze -f text -o dokument-0.txt dokument-0.png převést jeden obrázek do plaintextu.

    Ale problémem je převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru.

    Abych to ještě víc osvětlil, tak zde je výpis ls v adresáři, kde se nachází již zmíněné PNG obrázky:

    dokument.pdf      dokument-118.png  dokument-139.png  dokument-16.png   dokument-180.png  dokument-200.png  dokument-221.png  dokument-242.png  dokument-263.png  dokument-39.png  dokument-6.png   dokument-80.png
    dokument-0.png    dokument-119.png  dokument-14.png   dokument-160.png  dokument-181.png  dokument-201.png  dokument-222.png  dokument-243.png  dokument-264.png  dokument-4.png   dokument-60.png  dokument-81.png
    dokument-1.png    dokument-12.png   dokument-140.png  dokument-161.png  dokument-182.png  dokument-202.png  dokument-223.png  dokument-244.png  dokument-265.png  dokument-40.png  dokument-61.png  dokument-82.png
    dokument-10.png   dokument-120.png  dokument-141.png  dokument-162.png  dokument-183.png  dokument-203.png  dokument-224.png  dokument-245.png  dokument-266.png  dokument-41.png  dokument-62.png  dokument-83.png
    dokument-100.png  dokument-121.png  dokument-142.png  dokument-163.png  dokument-184.png  dokument-204.png  dokument-225.png  dokument-246.png  dokument-267.png  dokument-42.png  dokument-63.png  dokument-84.png
    dokument-101.png  dokument-122.png  dokument-143.png  dokument-164.png  dokument-185.png  dokument-205.png  dokument-226.png  dokument-247.png  dokument-268.png  dokument-43.png  dokument-64.png  dokument-85.png
    dokument-102.png  dokument-123.png  dokument-144.png  dokument-165.png  dokument-186.png  dokument-206.png  dokument-227.png  dokument-248.png  dokument-269.png  dokument-44.png  dokument-65.png  dokument-86.png
    dokument-103.png  dokument-124.png  dokument-145.png  dokument-166.png  dokument-187.png  dokument-207.png  dokument-228.png  dokument-249.png  dokument-27.png   dokument-45.png  dokument-66.png  dokument-87.png
    dokument-104.png  dokument-125.png  dokument-146.png  dokument-167.png  dokument-188.png  dokument-208.png  dokument-229.png  dokument-25.png   dokument-270.png  dokument-46.png  dokument-67.png  dokument-88.png
    dokument-105.png  dokument-126.png  dokument-147.png  dokument-168.png  dokument-189.png  dokument-209.png  dokument-23.png   dokument-250.png  dokument-271.png  dokument-47.png  dokument-68.png  dokument-89.png
    dokument-106.png  dokument-127.png  dokument-148.png  dokument-169.png  dokument-19.png   dokument-21.png   dokument-230.png  dokument-251.png  dokument-272.png  dokument-48.png  dokument-69.png  dokument-9.png
    dokument-107.png  dokument-128.png  dokument-149.png  dokument-17.png   dokument-190.png  dokument-210.png  dokument-231.png  dokument-252.png  dokument-28.png   dokument-49.png  dokument-7.png   dokument-90.png
    dokument-108.png  dokument-129.png  dokument-15.png   dokument-170.png  dokument-191.png  dokument-211.png  dokument-232.png  dokument-253.png  dokument-29.png   dokument-5.png   dokument-70.png  dokument-91.png
    dokument-109.png  dokument-13.png   dokument-150.png  dokument-171.png  dokument-192.png  dokument-212.png  dokument-233.png  dokument-254.png  dokument-3.png    dokument-50.png  dokument-71.png  dokument-92.png
    dokument-11.png   dokument-130.png  dokument-151.png  dokument-172.png  dokument-193.png  dokument-213.png  dokument-234.png  dokument-255.png  dokument-30.png   dokument-51.png  dokument-72.png  dokument-93.png
    dokument-110.png  dokument-131.png  dokument-152.png  dokument-173.png  dokument-194.png  dokument-214.png  dokument-235.png  dokument-256.png  dokument-31.png   dokument-52.png  dokument-73.png  dokument-94.png
    dokument-111.png  dokument-132.png  dokument-153.png  dokument-174.png  dokument-195.png  dokument-215.png  dokument-236.png  dokument-257.png  dokument-32.png   dokument-53.png  dokument-74.png  dokument-95.png
    dokument-112.png  dokument-133.png  dokument-154.png  dokument-175.png  dokument-196.png  dokument-216.png  dokument-237.png  dokument-258.png  dokument-33.png   dokument-54.png  dokument-75.png  dokument-96.png
    dokument-113.png  dokument-134.png  dokument-155.png  dokument-176.png  dokument-197.png  dokument-217.png  dokument-238.png  dokument-259.png  dokument-34.png   dokument-55.png  dokument-76.png  dokument-97.png
    dokument-114.png  dokument-135.png  dokument-156.png  dokument-177.png  dokument-198.png  dokument-218.png  dokument-239.png  dokument-26.png   dokument-35.png   dokument-56.png  dokument-77.png  dokument-98.png
    dokument-115.png  dokument-136.png  dokument-157.png  dokument-178.png  dokument-199.png  dokument-219.png  dokument-24.png   dokument-260.png  dokument-36.png   dokument-57.png  dokument-78.png  dokument-99.png
    dokument-116.png  dokument-137.png  dokument-158.png  dokument-179.png  dokument-2.png    dokument-22.png   dokument-240.png  dokument-261.png  dokument-37.png   dokument-58.png  dokument-79.png
    dokument-117.png  dokument-138.png  dokument-159.png  dokument-18.png   dokument-20.png   dokument-220.png  dokument-241.png  dokument-262.png  dokument-38.png   dokument-59.png  dokument-8.png
    
    

    Budu vděčný za každou radu. Předem děkuju.


    Řešení dotazu:


    Odpovědi

    13.6.2010 15:32 Filip Jirsák | skóre: 66 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    GNU ls s parameterm -v vám ty soubory setřídí správně – dokument-0.png, dokument-1.png, dokument-2.png, …, dokument-10.png, dokument-11.png atd.
    13.6.2010 16:06 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru
    for txt in dokument-*.txt; do
      cuneiform -l cze -f text -o "${txt%.txt}.png" "$txt"
    done
    
    cat dokument-{0..272}.txt > dokument-final.txt
    13.6.2010 16:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu

    Děkuju oběma pánům za rady.

    Vyskytl se ale jiný problém — úplně zmršený text získaný pomocí cuneiform.

    Pokusím se to vyřešit sám. Pokud se mi to nepodaří vyřešit, tak vznesu dotaz zde ve fóru.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.