abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 10:11 | IT novinky

    V pořadí šestou knihou autora Martina Malého, která vychází v Edici CZ.NIC, správce české národní domény, je titul Kity, bity, neurony. Kniha s podtitulem Moderní technologie pro hobby elektroniku přináší ucelený pohled na svět současných technologií a jejich praktické využití v domácích elektronických projektech. Tento knižní průvodce je ideální pro každého, kdo se chce podívat na současné trendy v oblasti hobby elektroniky, od

    … více »
    Ladislav Hagara | Komentářů: 0
    dnes 03:11 | Komunita

    Linux Foundation zveřejnila Výroční zprávu za rok 2025 (pdf). Příjmy Linux Foundation byly 311 miliónů dolarů. Výdaje 285 miliónů dolarů. Na podporu linuxového jádra (Linux Kernel Project) šlo 8,4 miliónu dolarů. Linux Foundation podporuje téměř 1 500 open source projektů.

    Ladislav Hagara | Komentářů: 0
    dnes 02:11 | Zajímavý článek

    Jean-Baptiste Mardelle se v příspěvku na blogu rozepsal o novinkám v nejnovější verzi 25.12.0 editoru videa Kdenlive (Wikipedie). Ke stažení také na Flathubu.

    Ladislav Hagara | Komentářů: 0
    dnes 02:00 | Nová verze

    OpenZFS (Wikipedie), tj. implementace souborového systému ZFS pro Linux a FreeBSD, byl vydán ve verzi 2.4.0.

    Ladislav Hagara | Komentářů: 0
    dnes 01:00 | IT novinky

    Kriminalisté z NCTEKK společně s českými i zahraničními kolegy objasnili mimořádně rozsáhlou trestnou činnost z oblasti kybernetické kriminality. V rámci operací OCTOPUS a CONNECT ukončili činnost čtyř call center na Ukrajině. V prvním případě se jednalo o podvodné investice, v případě druhém o podvodné telefonáty, při kterých se zločinci vydávali za policisty a pod legendou napadeného bankovního účtu okrádali své oběti o vysoké finanční částky.

    Ladislav Hagara | Komentářů: 3
    včera 14:44 | IT novinky

    Na lepší pokrytí mobilním signálem a dostupnější mobilní internet se mohou těšit cestující v Pendolinech, railjetech a InterPanterech Českých drah. Konsorcium firem ČD - Telematika a.s. a Kontron Transportation s.r.o. dokončilo instalaci 5G opakovačů mobilního signálu do jednotek Pendolino a InterPanter. Tento krok navazuje na zavedení této technologie v jednotkách Railjet z letošního jara.

    Ladislav Hagara | Komentářů: 5
    včera 12:22 | Bezpečnostní upozornění

    Rozšíření webového prohlížeče Urban VPN Proxy a další rozšíření od stejného vydavatele (např. 1ClickVPN Proxy, Urban Browser Guard či Urban Ad Blocker) od července 2025 skrytě zachytávají a odesílají celé konverzace uživatelů s AI nástroji (včetně ChatGPT, Claude, Gemini, Copilot aj.), a to nezávisle na tom, zda je VPN aktivní. Sběr probíhá bez možnosti jej uživatelsky vypnout a zahrnuje plný obsah dotazů a odpovědí, metadata relací i

    … více »
    Ladislav Hagara | Komentářů: 5
    včera 05:22 | Zajímavý software

    QStudio, tj. nástroj pro práci s SQL podporující více než 30 databází (MySQL, PostgreSQL, DuckDB, QuestDB, kdb+, …), se stal s vydáním verze 5.0 open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí Apache 2.0.

    Ladislav Hagara | Komentářů: 6
    včera 04:55 | Nová verze

    Byla vydána nová verze 259 správce systému a služeb systemd (Wikipedie, GitHub).

    Ladislav Hagara | Komentářů: 0
    včera 02:55 | Zajímavý článek

    Cloudflare Radar poskytuje aktuální informace o globálním internetovém provozu, útocích nebo trendech. Publikován byl celkový přehled za rok 2025. Globální internetový provoz vzrostl v roce 2025 o 19 %.

    Ladislav Hagara | Komentářů: 0
    Kdo vám letos nadělí dárek?
     (0%)
     (0%)
     (0%)
     (0%)
     (0%)
     (0%)
     (33%)
     (33%)
     (33%)
    Celkem 6 hlasů
     Komentářů: 10, poslední dnes 12:54
    Rozcestník

    Dotaz: pdftotext a špatná diakritika

    18.4.2010 11:10 Begleiter | skóre: 47 | blog: muj_blog | Doma
    pdftotext a špatná diakritika
    Přečteno: 1218×
    Příloha:

    Dobrý den,

    snažím se převést jednu PDF knížku v češtině do UTF-8 plain text. Používám následující příkaz:

    pdftotext -enc UTF-8 -eol unix kniha.pdf kniha.txt
    

    Ale bohužel pdftotext si neporadí s diakritikou — vystup_z_pdftotext.png ukazuje, jak to s diakritikou dopadlo (otevírám to v editoru gedit).

    Budu moc vděčný za jakoukoli radu, jak diakritiku zprovoznit.


    Řešení dotazu:


    Odpovědi

    18.4.2010 12:29 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skusil by som opraviť to pomocou sedu: sed 'y/??.../ÉÁ.../' kniha.txt > kniha.ok
    18.4.2010 12:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za odpověď, ale bohužel toto nepomohlo.

    18.4.2010 14:09 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Samozrejme namiesto tych otaznikov si musite dat tie znaky ktore tam su necitatelne.
    18.4.2010 14:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Jsem já to vůl! :-D Děkuju za nakopnutí, vyzkouším.

    18.4.2010 14:18 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Zasek jsem se na tom, že nevím, jak zadat ty "Unicode znaky" (myslím ty znaky v tom obdélníčku).

    18.4.2010 18:05 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skopiruj ich z toho zkomoleneho textu, myslim ze by to malo fungovat.
    18.4.2010 12:52 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Z toho obrázka nie je jasné, či to je naozaj utf-8, alebo to je windows-1250 zobrazované v kódovaní iso-8859-2.

    Ak ide o tú prvú možnosť, tak sa utf8 bude musieť konvertovať do 8859_2 a potom cp1250 do utf8.
    18.4.2010 12:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za reakci. Ale jsem z toho jelen. Mohl byste být konkrétnější?

    18.4.2010 13:01 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Ak je problém to, čo si myslím, tak v pdf je použité 8 bitové kódovanie. Je tam použité kódovanie cp1250, ale program pdftotxt si myslel, že to je 8859_2.

    Takže postup bude:
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
    iconv --from cp1250 --to utf8 subor-1250.txt > subor-utf8.txt
    18.4.2010 14:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    pdftotext -enc UTF-8 -eol unix kniha.pdf subor.txt
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
     iconv: nepovolená vstupní sekvence na pozici 122
    
    18.4.2010 18:44 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju moc, chrono! :-) Vyřešeno! Řešení je napsáno výše, jen je ještě třeba přidat parametr -c programu iconv. Já ho radši přidal k oběma příkazům.

    18.4.2010 17:12 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Podle tech znaku to vypada, ze to z pdftotextu vypadne v CP1250. Zkusil bych tedy vysledek prevest iconv -f windows-1250 -t utf-8 < kniha.txt > knihautf8.txt

    Tomas
    18.4.2010 17:21 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    iconv: nepovolená vstupní sekvence na pozici 2243
    

    Skončí to touhle chybou. :-( Přesto díky za pomoc.

    18.4.2010 17:31 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    To uz je docela daleko. Mozna je tam vazne nejaky podivny znak. Bud bych se podival, co tam je, nebo bych rovnou doplnil parametry iconvu o -c.

    Tomas
    18.4.2010 18:48 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Hrozně moc ti děkuju za nakopnutí, co se týká parametru -c programu iconv. Ukázal se jako klíčový parametr. Ještě jednou díky!

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.