abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 05:11 | Nová verze

    OCCT3D (Open CASCADE Technology) Open Source 8.0 bylo vydáno. OCCT3D (Wikipedie, GitHub) je objektově orientovaná knihovna pro 3D CAD, CAM nebo CAE. Používá se například v softwarech FreeCAD a KiCad.

    Ladislav Hagara | Komentářů: 1
    dnes 02:22 | Bezpečnostní upozornění

    Ve FreeBSD byla nalezena a již opravena 21letá zranitelnost CVE-2026-42511 v dhclient. Jedná se o vzdálené spuštění kódu (RCE). Útočník mající pod správou DHCP server může získat plnou kontrolu nad systémem FreeBSD pouze jeho připojením k místní síti.

    Ladislav Hagara | Komentářů: 0
    včera 17:22 | Komunita

    Na čem aktuálně pracují vývojáři GNOME a KDE Plasma? Pravidelný přehled novinek v Týden v GNOME a Týden v KDE Plasma.

    Ladislav Hagara | Komentářů: 0
    včera 00:11 | Nová verze

    UBports, nadace a komunita kolem Ubuntu pro telefony a tablety Ubuntu Touch, vydala Ubuntu Touch 24.04-1.3. Současně oznámila, že nadcházející větší vydání 24.04-2.0 bude mít modernější webový prohlížeč.

    Ladislav Hagara | Komentářů: 0
    8.5. 17:11 | Zajímavý projekt

    Ploopy po DIY trackballech či sluchátkách představuje nový externí DIY trackpoint se čtyřmi tlačítky Bean. Obsahuje snímač Texas Instruments TMAG5273, spínače Omron D2LS-21 a řadič RP2040, používá firmware QMK. Schémata jsou na GitHubu; sadu lze předobjednat za 69 kanadských dolarů (bez dopravy a DPH).

    |🇵🇸 | Komentářů: 0
    8.5. 03:33 | Zajímavý článek

    Mozilla před dvěma týdny na svém blogu oznámila, že díky Claude Mythos Preview bylo ve Firefoxu nalezeno a opraveno 271 bezpečnostních chyb. Včera vyšel na Mozilla Hacks článek s podrobnějšími informacemi. Z 271 bezpečnostních chyb mělo 180 chyb vysokou závažnost, 80 chyb střední závažnost a 11 chyb nízkou závažnost. Celkově bylo v dubnu ve Firefoxu opraveno 423 bezpečnostních chyb. Čísla CVE nemusí být přiřazována jednotlivým chybám. CVE-2026-6784 například představuje 154 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    7.5. 22:55 | Bezpečnostní upozornění

    Před týdnem zranitelnost Copy Fail. Dnes zranitelnost Dirty Frag. Běžný uživatel může na Linuxu získat práva roota (lokální eskalaci práv). Na většině linuxových distribucí vydaných od roku 2017. Aktuálně bez oficiální záplaty a CVE čísla [oss-security mailing list].

    Ladislav Hagara | Komentářů: 9
    7.5. 14:00 | Humor

    Ačkoli je papež Lev XIV. hlavou katolické církve a stojí v čele více než miliardy věřících po celém světě, také on někdy řeší všední potíže. A kdo v životě neměl problémy se zákaznickou linkou? Krátce poté, co nastoupil do úřadu, musel papež se svou bankou řešit změnu údajů. Operátorka ale nechtěla uvěřit, s kým mluví, a Svatému otci zavěsila.

    Ladislav Hagara | Komentářů: 11
    7.5. 05:11 | Nová verze

    Incus, komunitní fork nástroje pro správu kontejnerů LXD, byl vydán ve verzi 7.0 LTS (YouTube). Stejně tak související LXC a LXCFS.

    Ladislav Hagara | Komentářů: 0
    7.5. 05:00 | Nová verze

    Google Chrome 148 byl prohlášen za stabilní. Nejnovější stabilní verze 148.0.7778.96 přináší řadu novinek z hlediska uživatelů i vývojářů. Vypíchnout lze Prompt API (demo) pro přímý přístup k AI v zařízení. Podrobný přehled v poznámkách k vydání. Opraveno bylo 127 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (13%)
     (8%)
     (2%)
     (14%)
     (31%)
     (4%)
     (7%)
     (3%)
     (16%)
     (25%)
    Celkem 1567 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Dotaz: pdftotext a špatná diakritika

    18.4.2010 11:10 Begleiter | skóre: 47 | blog: muj_blog | Doma
    pdftotext a špatná diakritika
    Přečteno: 1220×
    Příloha:

    Dobrý den,

    snažím se převést jednu PDF knížku v češtině do UTF-8 plain text. Používám následující příkaz:

    pdftotext -enc UTF-8 -eol unix kniha.pdf kniha.txt
    

    Ale bohužel pdftotext si neporadí s diakritikou — vystup_z_pdftotext.png ukazuje, jak to s diakritikou dopadlo (otevírám to v editoru gedit).

    Budu moc vděčný za jakoukoli radu, jak diakritiku zprovoznit.


    Řešení dotazu:


    Odpovědi

    18.4.2010 12:29 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skusil by som opraviť to pomocou sedu: sed 'y/??.../ÉÁ.../' kniha.txt > kniha.ok
    18.4.2010 12:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za odpověď, ale bohužel toto nepomohlo.

    18.4.2010 14:09 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Samozrejme namiesto tych otaznikov si musite dat tie znaky ktore tam su necitatelne.
    18.4.2010 14:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Jsem já to vůl! :-D Děkuju za nakopnutí, vyzkouším.

    18.4.2010 14:18 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Zasek jsem se na tom, že nevím, jak zadat ty "Unicode znaky" (myslím ty znaky v tom obdélníčku).

    18.4.2010 18:05 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skopiruj ich z toho zkomoleneho textu, myslim ze by to malo fungovat.
    18.4.2010 12:52 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Z toho obrázka nie je jasné, či to je naozaj utf-8, alebo to je windows-1250 zobrazované v kódovaní iso-8859-2.

    Ak ide o tú prvú možnosť, tak sa utf8 bude musieť konvertovať do 8859_2 a potom cp1250 do utf8.
    18.4.2010 12:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za reakci. Ale jsem z toho jelen. Mohl byste být konkrétnější?

    18.4.2010 13:01 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Ak je problém to, čo si myslím, tak v pdf je použité 8 bitové kódovanie. Je tam použité kódovanie cp1250, ale program pdftotxt si myslel, že to je 8859_2.

    Takže postup bude:
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
    iconv --from cp1250 --to utf8 subor-1250.txt > subor-utf8.txt
    18.4.2010 14:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    pdftotext -enc UTF-8 -eol unix kniha.pdf subor.txt
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
     iconv: nepovolená vstupní sekvence na pozici 122
    
    18.4.2010 18:44 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju moc, chrono! :-) Vyřešeno! Řešení je napsáno výše, jen je ještě třeba přidat parametr -c programu iconv. Já ho radši přidal k oběma příkazům.

    18.4.2010 17:12 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Podle tech znaku to vypada, ze to z pdftotextu vypadne v CP1250. Zkusil bych tedy vysledek prevest iconv -f windows-1250 -t utf-8 < kniha.txt > knihautf8.txt

    Tomas
    18.4.2010 17:21 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    iconv: nepovolená vstupní sekvence na pozici 2243
    

    Skončí to touhle chybou. :-( Přesto díky za pomoc.

    18.4.2010 17:31 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    To uz je docela daleko. Mozna je tam vazne nejaky podivny znak. Bud bych se podival, co tam je, nebo bych rovnou doplnil parametry iconvu o -c.

    Tomas
    18.4.2010 18:48 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Hrozně moc ti děkuju za nakopnutí, co se týká parametru -c programu iconv. Ukázal se jako klíčový parametr. Ještě jednou díky!

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.