abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 15:33 | Komunita

    Na YouTube byly zveřejněny videozáznamy přednášek z hackerské konference DEF CON 33, jež proběhla 7. až 10. srpna v Las Vegas.

    Ladislav Hagara | Komentářů: 0
    včera 05:33 | Nová verze

    Bun (Wikipedie), tj. běhové prostředí (runtime) a toolkit pro JavaScript a TypeScript, alternativa k Node.js a Deno, byl vydán ve verzi 1.3. Představení novinek také na YouTube. Bun je naprogramován v programovacím jazyce Zig.

    Ladislav Hagara | Komentářů: 2
    10.10. 14:22 | IT novinky

    V Lucemburku byly oznámeny výsledky posledního kola výzev na evropské továrny pro umělou inteligenci neboli AI Factories. Mezi úspěšné žadatele patří i Česká republika, potažmo konsorcium šesti partnerů vedené VŠB – Technickou univerzitou Ostrava. V rámci Czech AI Factory (CZAI), jak se česká AI továrna jmenuje, bude pořízen velmi výkonný superpočítač pro AI výpočty a vznikne balíček služeb poskytovaný odborníky konsorcia. Obojí bude sloužit malým a středním podnikům, průmyslu i institucím veřejného a výzkumného sektoru.

    Ladislav Hagara | Komentářů: 15
    10.10. 01:22 | Nová verze

    Byla vydána (𝕏) zářijová aktualizace aneb nová verze 1.105 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.105 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

    Ladislav Hagara | Komentářů: 0
    9.10. 15:33 | Komunita

    Ve Firefoxu bude lepší správa profilů (oddělené nastavení domovské stránky, nastavení lišt, instalace rozšíření, uložení hesla, přidání záložky atd.). Nový grafický správce profilů bude postupně zaváděn od 14.října.

    Ladislav Hagara | Komentářů: 0
    9.10. 12:44 | Nová verze

    Canonical vydal (email) Ubuntu 25.10 Questing Quokka. Přehled novinek v poznámkách k vydání. Jedná se o průběžné vydání s podporou 9 měsíců, tj. do července 2026.

    Ladislav Hagara | Komentářů: 0
    9.10. 12:22 | Nová verze

    ClamAV (Wikipedie), tj. multiplatformní antivirový engine s otevřeným zdrojovým kódem pro detekci trojských koní, virů, malwaru a dalších škodlivých hrozeb, byl vydán ve verzi 1.5.0.

    Ladislav Hagara | Komentářů: 0
    9.10. 01:22 | Nová verze

    Byla vydána nová verze 1.12.0 dynamického programovacího jazyka Julia (Wikipedie) určeného zejména pro vědecké výpočty. Přehled novinek v příspěvku na blogu a v poznámkách k vydání. Aktualizována byla také dokumentace.

    Ladislav Hagara | Komentářů: 0
    8.10. 15:11 | Bezpečnostní upozornění

    V Redisu byla nalezena a v upstreamu již opravena kritická zranitelnost CVE-2025-49844 s CVSS 10.0 (RCE, vzdálené spouštění kódu).

    Ladislav Hagara | Komentářů: 5
    8.10. 14:00 | IT novinky

    Ministr a vicepremiér pro digitalizaci Marian Jurečka dnes oznámil, že přijme rezignaci ředitele Digitální a informační agentury Martina Mesršmída, a to k 23. říjnu 2025. Mesršmíd nabídl svou funkci během minulého víkendu, kdy se DIA potýkala s problémy eDokladů, které některým občanům znepříjemnily využití možnosti prokázat se digitální občankou u volebních komisí při volbách do Poslanecké sněmovny.

    Ladislav Hagara | Komentářů: 20
    Jaké řešení používáte k vývoji / práci?
     (38%)
     (46%)
     (16%)
     (18%)
     (22%)
     (16%)
     (18%)
     (16%)
     (16%)
    Celkem 208 hlasů
     Komentářů: 13, poslední 8.10. 07:41
    Rozcestník

    Dotaz: pdftotext a špatná diakritika

    18.4.2010 11:10 Begleiter | skóre: 47 | blog: muj_blog | Doma
    pdftotext a špatná diakritika
    Přečteno: 1181×
    Příloha:

    Dobrý den,

    snažím se převést jednu PDF knížku v češtině do UTF-8 plain text. Používám následující příkaz:

    pdftotext -enc UTF-8 -eol unix kniha.pdf kniha.txt
    

    Ale bohužel pdftotext si neporadí s diakritikou — vystup_z_pdftotext.png ukazuje, jak to s diakritikou dopadlo (otevírám to v editoru gedit).

    Budu moc vděčný za jakoukoli radu, jak diakritiku zprovoznit.


    Řešení dotazu:


    Odpovědi

    18.4.2010 12:29 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skusil by som opraviť to pomocou sedu: sed 'y/??.../ÉÁ.../' kniha.txt > kniha.ok
    18.4.2010 12:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za odpověď, ale bohužel toto nepomohlo.

    18.4.2010 14:09 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Samozrejme namiesto tych otaznikov si musite dat tie znaky ktore tam su necitatelne.
    18.4.2010 14:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Jsem já to vůl! :-D Děkuju za nakopnutí, vyzkouším.

    18.4.2010 14:18 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Zasek jsem se na tom, že nevím, jak zadat ty "Unicode znaky" (myslím ty znaky v tom obdélníčku).

    18.4.2010 18:05 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skopiruj ich z toho zkomoleneho textu, myslim ze by to malo fungovat.
    18.4.2010 12:52 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Z toho obrázka nie je jasné, či to je naozaj utf-8, alebo to je windows-1250 zobrazované v kódovaní iso-8859-2.

    Ak ide o tú prvú možnosť, tak sa utf8 bude musieť konvertovať do 8859_2 a potom cp1250 do utf8.
    18.4.2010 12:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za reakci. Ale jsem z toho jelen. Mohl byste být konkrétnější?

    18.4.2010 13:01 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Ak je problém to, čo si myslím, tak v pdf je použité 8 bitové kódovanie. Je tam použité kódovanie cp1250, ale program pdftotxt si myslel, že to je 8859_2.

    Takže postup bude:
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
    iconv --from cp1250 --to utf8 subor-1250.txt > subor-utf8.txt
    18.4.2010 14:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    pdftotext -enc UTF-8 -eol unix kniha.pdf subor.txt
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
     iconv: nepovolená vstupní sekvence na pozici 122
    
    18.4.2010 18:44 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju moc, chrono! :-) Vyřešeno! Řešení je napsáno výše, jen je ještě třeba přidat parametr -c programu iconv. Já ho radši přidal k oběma příkazům.

    18.4.2010 17:12 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Podle tech znaku to vypada, ze to z pdftotextu vypadne v CP1250. Zkusil bych tedy vysledek prevest iconv -f windows-1250 -t utf-8 < kniha.txt > knihautf8.txt

    Tomas
    18.4.2010 17:21 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    iconv: nepovolená vstupní sekvence na pozici 2243
    

    Skončí to touhle chybou. :-( Přesto díky za pomoc.

    18.4.2010 17:31 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    To uz je docela daleko. Mozna je tam vazne nejaky podivny znak. Bud bych se podival, co tam je, nebo bych rovnou doplnil parametry iconvu o -c.

    Tomas
    18.4.2010 18:48 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Hrozně moc ti děkuju za nakopnutí, co se týká parametru -c programu iconv. Ukázal se jako klíčový parametr. Ještě jednou díky!

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.