abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 18:44 | IT novinky

    Vojenské zpravodajství (VZ) se v březnu zapojilo do mezinárodní operace proti aktivitám hackerské skupiny APT28, která je spojovaná s ruskou vojenskou zpravodajskou službou GRU a která přes slabě zabezpečené routery prováděla kybernetické útoky na státní a další organizace v ČR i zahraničí. Operaci vedl americký Federální úřad pro vyšetřování (FBI) a jejím cílem bylo odebrat útočníkům přístup k napadeným zařízením a ty následně … více »

    Ladislav Hagara | Komentářů: 2
    dnes 16:44 | IT novinky

    Tvůrcem nejpopulárnější kryptoměny bitcoin, který se skrývá za pseudonymem Satoši Nakamoto (Satoshi Nakamoto), je britský kryptograf Adam Back. Na základě vlastní investigativní práce to tvrdí americký deník The New York Times (NYT). Několik indicií podle autorů jasně ukazuje na to, že Back a Nakamoto jsou stejný člověk. Jde mimo jiné o podobný odborný a osobnostní profil či totožné chyby a manýry v psaném projevu.

    Ladislav Hagara | Komentářů: 5
    dnes 14:44 | Nová verze

    Google Chrome 147 byl prohlášen za stabilní. Nejnovější stabilní verze 147.0.7727.55 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Vylepšeny byly také nástroje pro vývojáře. Přehled novinek v Chrome DevTools 145 až 147 také na YouTube.

    Ladislav Hagara | Komentářů: 0
    dnes 12:44 | Nová verze

    Vývojáři z Laboratoří CZ.NIC vydali nové verze aplikací Datovka (Datovka 4.29.0, Mobilní Datovka 2.6.2). V případě desktopové verze přibyly možnosti projít všechny uložené zprávy, zkontrolovat časy expirací časových razítek a přerazítkovat datové zprávy, které lze v ISDS přerazítkovat. Novinkou je také možnost vytahovat myší ze seznamu ZFO soubory datových zpráv, tento úkon jde udělat i pomocí tlačítek Ctrl+C. Nová verze Mobilní Datovky přináší jen drobné úpravy.

    VSladek | Komentářů: 0
    včera 21:55 | Nová verze

    MicroPython (Wikipedie), tj. implementace Pythonu 3 optimalizovaná pro jednočipové počítače, byl vydán ve verzi 1.28.0. Z novinek lze vypíchnout novou třídu machine.CAN.

    Ladislav Hagara | Komentářů: 0
    včera 10:22 | Komunita

    Michael Meeks, CEO společnosti Collabora, na apríla oznámil, nebyl to ale apríl, že nadace The Document Foundation zastřešující vývoj kancelářského balíku LibreOffice vyloučila ze svých řad všechny zaměstnance a partnery společnosti Collabora, tj. více než třicet lidí, kteří po mnoho let přispívali do LibreOffice. Nadace The Document Foundation po několika dnech publikovala oficiální vyjádření. Přiznává pochybení při zakládání

    … více »
    Ladislav Hagara | Komentářů: 9
    6.4. 05:33 | Pozvánky

    Protože je už po aprílu, můžou strahováci opět zveřejnit program další Virtuální Bastlírny, aniž by připravená témata působila dojmem, že jde o žert. Vězte tedy, že v úterý 14. dubna (změna!!!) od 20:00 proběhne VB, kde se setkají bastlíři, technici, učitelé i nadšenci do techniky a kde i vy se můžete zapojit do družného hovoru, jako by všichni seděli u pomyslného piva. Co mají bastlíři tento měsíc na srdci? Pravděpodobně by nás musel zasáhnout

    … více »
    bkralik | Komentářů: 3
    5.4. 23:33 | Nová verze

    Byla vydána verze 26.1 aneb čtvrtletní aktualizace open source počítačového planetária Stellarium (Wikipedie, GitHub). Vyzkoušet lze webovou verzi Stellaria na Stellarium Web.

    Ladislav Hagara | Komentářů: 1
    5.4. 23:00 | Zajímavý projekt

    VOID (Video Object and Interaction Deletion) je nový open-source VLM model pro editaci videa, který dokáže z videí odstraňovat objekty včetně všech jejich fyzikálních interakcí v rámci scény (pády, kolize, stíny...) pomocí quadmaskingu (čtyřhodnotová maska, která člení pixely scény do čtyř kategorií: objekt určený k odstranění, překrývající se oblasti, objektem ovlivněné oblasti a pozadí scény) a dvoufázového inpaintingu. Za projektem stojí výzkumníci ze společnosti Netflix.

    NUKE GAZA! 🎆 | Komentářů: 8
    5.4. 05:22 | Zajímavý software

    Design (GitHub) je 2D CAD pro GNOME. Instalovat lze i z Flathubu. Běží také ve webovém prohlížeči.

    Ladislav Hagara | Komentářů: 20
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (7%)
     (1%)
     (12%)
     (30%)
     (3%)
     (6%)
     (1%)
     (14%)
     (23%)
    Celkem 1244 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Dotaz: Převod PDF do prostého textu

    13.6.2010 15:22 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Převod PDF do prostého textu
    Přečteno: 426×

    Dobrý den,

    na převod PDF dokumentu jsem zkusil utilitku pdftotext, ale nebyl jsem spokojený s převodem diakritiky. Převádím česky psaný PDF do UTF-8 plaintextu.

    Chtěl jsem tudíž zkusit cestu, kdy nejdřív utilitkou convert převedu zmíněný PDF dokument na obrázek(y) třeba ve formátu PNG. Následně bych pomocí programu cuneiform převedl zmíněné obrázky na prostý text. Jenže jsem narazil. :-(

    Takto jsem postupoval:

    convert dokument.pdf dokument.png
    # Tímto jsem získal soubory: dokument-0.png až dokument-272.png.
    

    Uměl bych pomocí cuneiform -l cze -f text -o dokument-0.txt dokument-0.png převést jeden obrázek do plaintextu.

    Ale problémem je převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru.

    Abych to ještě víc osvětlil, tak zde je výpis ls v adresáři, kde se nachází již zmíněné PNG obrázky:

    dokument.pdf      dokument-118.png  dokument-139.png  dokument-16.png   dokument-180.png  dokument-200.png  dokument-221.png  dokument-242.png  dokument-263.png  dokument-39.png  dokument-6.png   dokument-80.png
    dokument-0.png    dokument-119.png  dokument-14.png   dokument-160.png  dokument-181.png  dokument-201.png  dokument-222.png  dokument-243.png  dokument-264.png  dokument-4.png   dokument-60.png  dokument-81.png
    dokument-1.png    dokument-12.png   dokument-140.png  dokument-161.png  dokument-182.png  dokument-202.png  dokument-223.png  dokument-244.png  dokument-265.png  dokument-40.png  dokument-61.png  dokument-82.png
    dokument-10.png   dokument-120.png  dokument-141.png  dokument-162.png  dokument-183.png  dokument-203.png  dokument-224.png  dokument-245.png  dokument-266.png  dokument-41.png  dokument-62.png  dokument-83.png
    dokument-100.png  dokument-121.png  dokument-142.png  dokument-163.png  dokument-184.png  dokument-204.png  dokument-225.png  dokument-246.png  dokument-267.png  dokument-42.png  dokument-63.png  dokument-84.png
    dokument-101.png  dokument-122.png  dokument-143.png  dokument-164.png  dokument-185.png  dokument-205.png  dokument-226.png  dokument-247.png  dokument-268.png  dokument-43.png  dokument-64.png  dokument-85.png
    dokument-102.png  dokument-123.png  dokument-144.png  dokument-165.png  dokument-186.png  dokument-206.png  dokument-227.png  dokument-248.png  dokument-269.png  dokument-44.png  dokument-65.png  dokument-86.png
    dokument-103.png  dokument-124.png  dokument-145.png  dokument-166.png  dokument-187.png  dokument-207.png  dokument-228.png  dokument-249.png  dokument-27.png   dokument-45.png  dokument-66.png  dokument-87.png
    dokument-104.png  dokument-125.png  dokument-146.png  dokument-167.png  dokument-188.png  dokument-208.png  dokument-229.png  dokument-25.png   dokument-270.png  dokument-46.png  dokument-67.png  dokument-88.png
    dokument-105.png  dokument-126.png  dokument-147.png  dokument-168.png  dokument-189.png  dokument-209.png  dokument-23.png   dokument-250.png  dokument-271.png  dokument-47.png  dokument-68.png  dokument-89.png
    dokument-106.png  dokument-127.png  dokument-148.png  dokument-169.png  dokument-19.png   dokument-21.png   dokument-230.png  dokument-251.png  dokument-272.png  dokument-48.png  dokument-69.png  dokument-9.png
    dokument-107.png  dokument-128.png  dokument-149.png  dokument-17.png   dokument-190.png  dokument-210.png  dokument-231.png  dokument-252.png  dokument-28.png   dokument-49.png  dokument-7.png   dokument-90.png
    dokument-108.png  dokument-129.png  dokument-15.png   dokument-170.png  dokument-191.png  dokument-211.png  dokument-232.png  dokument-253.png  dokument-29.png   dokument-5.png   dokument-70.png  dokument-91.png
    dokument-109.png  dokument-13.png   dokument-150.png  dokument-171.png  dokument-192.png  dokument-212.png  dokument-233.png  dokument-254.png  dokument-3.png    dokument-50.png  dokument-71.png  dokument-92.png
    dokument-11.png   dokument-130.png  dokument-151.png  dokument-172.png  dokument-193.png  dokument-213.png  dokument-234.png  dokument-255.png  dokument-30.png   dokument-51.png  dokument-72.png  dokument-93.png
    dokument-110.png  dokument-131.png  dokument-152.png  dokument-173.png  dokument-194.png  dokument-214.png  dokument-235.png  dokument-256.png  dokument-31.png   dokument-52.png  dokument-73.png  dokument-94.png
    dokument-111.png  dokument-132.png  dokument-153.png  dokument-174.png  dokument-195.png  dokument-215.png  dokument-236.png  dokument-257.png  dokument-32.png   dokument-53.png  dokument-74.png  dokument-95.png
    dokument-112.png  dokument-133.png  dokument-154.png  dokument-175.png  dokument-196.png  dokument-216.png  dokument-237.png  dokument-258.png  dokument-33.png   dokument-54.png  dokument-75.png  dokument-96.png
    dokument-113.png  dokument-134.png  dokument-155.png  dokument-176.png  dokument-197.png  dokument-217.png  dokument-238.png  dokument-259.png  dokument-34.png   dokument-55.png  dokument-76.png  dokument-97.png
    dokument-114.png  dokument-135.png  dokument-156.png  dokument-177.png  dokument-198.png  dokument-218.png  dokument-239.png  dokument-26.png   dokument-35.png   dokument-56.png  dokument-77.png  dokument-98.png
    dokument-115.png  dokument-136.png  dokument-157.png  dokument-178.png  dokument-199.png  dokument-219.png  dokument-24.png   dokument-260.png  dokument-36.png   dokument-57.png  dokument-78.png  dokument-99.png
    dokument-116.png  dokument-137.png  dokument-158.png  dokument-179.png  dokument-2.png    dokument-22.png   dokument-240.png  dokument-261.png  dokument-37.png   dokument-58.png  dokument-79.png
    dokument-117.png  dokument-138.png  dokument-159.png  dokument-18.png   dokument-20.png   dokument-220.png  dokument-241.png  dokument-262.png  dokument-38.png   dokument-59.png  dokument-8.png
    
    

    Budu vděčný za každou radu. Předem děkuju.


    Řešení dotazu:


    Odpovědi

    13.6.2010 15:32 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    GNU ls s parameterm -v vám ty soubory setřídí správně – dokument-0.png, dokument-1.png, dokument-2.png, …, dokument-10.png, dokument-11.png atd.
    13.6.2010 16:06 Ash | skóre: 53
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu
    převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru
    for txt in dokument-*.txt; do
      cuneiform -l cze -f text -o "${txt%.txt}.png" "$txt"
    done
    
    cat dokument-{0..272}.txt > dokument-final.txt
    13.6.2010 16:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Převod PDF do prostého textu

    Děkuju oběma pánům za rady.

    Vyskytl se ale jiný problém — úplně zmršený text získaný pomocí cuneiform.

    Pokusím se to vyřešit sám. Pokud se mi to nepodaří vyřešit, tak vznesu dotaz zde ve fóru.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.