abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 01:22 | IT novinky

    Samsung na akci Galaxy Unpacked February 2026 (YouTube) představil své nové telefony Galaxy S26, S26+ a S26 Ultra a sluchátka Galaxy Buds4 a Buds4 Pro. Telefon Galaxy S26 Ultra má nový typ displeje (Privacy Display) chránící obsah na obrazovce před zvědavými pohledy (YouTube).

    Ladislav Hagara | Komentářů: 0
    dnes 00:22 | Nová verze

    Byla vydána grafická knihovna Mesa 26.0.1 s podporou API OpenGL 4.6 a Vulkan 1.4. Je to první stabilní verze po 26.0.0, kde se novinky týkají mj. výkonu ray tracingu na GPU AMD a HoneyKrisp, implementace API Vulkan pro macOS.

    |🇵🇸 | Komentářů: 0
    včera 20:22 | Nová verze

    Byla vydána nová verze 4.6 multiplatformního integrovaného vývojového prostředí (IDE) pro rychlý vývoj aplikaci (RAD) ve Free Pascalu Lazarus (Wikipedie). Využíván je Free Pascal Compiler (FPC) 3.2.2.

    Ladislav Hagara | Komentářů: 0
    včera 18:00 | Nová verze

    Byla vydána nová verze 3.23.0 FreeRDP, tj. svobodné implementace protokolu RDP (Remote Desktop Protocol). Opravuje 11 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    včera 17:44 | Zajímavý článek

    Španělský softwarový inženýr oznámil, že se mu podařilo na dálku ovládat sedm tisíc robotických vysavačů po celém světě. Upozornil tak na slabé kybernetické zabezpečení těchto technologií a jejich možné a snadné zneužití. Nesnažil se hacknout všechny robotické vysavače po světě, ale pouze propojil svůj nový DJI Romo vysavač se zařízením Playstation. Aplikace podle něj ihned začala komunikovat se všemi sedmi tisíci spotřebiči a on je

    … více »
    Ladislav Hagara | Komentářů: 5
    včera 03:33 | Humor

    Momo je fenka cavapoo, která svými náhodnými stisky kláves bezdrátové klávesnice vytváří jednoduché počítačové hry. Technicky to funguje tak, že Raspberry Pi s připojenou bluetooth klávesnicí posílá text do Claude Code, který pak v Godotu píše hry a sám je i testuje pomocí screenshotů a jednoduchých simulovaných vstupů. Za stisky kláves je Momo automaticky odměňována pamlsky. Klíčový je pro projekt prompt, který instruuje AI, aby i

    … více »
    NUKE GAZA! 🎆 | Komentářů: 24
    včera 02:22 | Nová verze

    GNU awk (gawk), implementace specializovaného programovacího jazyka pro zpracování textu, byl vydán ve verzi 5.4.0. Jedná se o větší vydání po více než dvou letech. Mezi četnými změnami figuruje např. MinRX nově jako výchozí implementace pro regulární výrazy.

    |🇵🇸 | Komentářů: 0
    24.2. 16:22 | IT novinky

    Internetový prohlížeč Ladybird ohlásil tranzici z programovacího jazyka C++ do Rustu. Přechod bude probíhat postupně a nové komponenty budou dočasně koexistovat se stávajícím C++ kódem. Pro urychlení práce bude použita umělá inteligence, při portování první komponenty prohlížeče, JavaScriptového enginu LibJS, bylo během dvou týdnů pomocí nástrojů Claude Code a Codex vygenerováno kolem 25 000 řádků kódu. Nejedná se o čistě autonomní vývoj pomocí agentů.

    NUKE GAZA! 🎆 | Komentářů: 6
    24.2. 15:55 | Nová verze

    Byl vydán Mozilla Firefox 148.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Nově lze snadno povolit nebo zakázat jednotlivé AI funkce. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 148 bude brzy k dispozici také na Flathubu a Snapcraftu.

    Ladislav Hagara | Komentářů: 2
    24.2. 12:44 | Nová verze

    Byla vydána nová verze 22.1.0, tj. první stabilní verze z nové řady 22.1.x, překladačové infrastruktury LLVM (Wikipedie). Přehled novinek v poznámkách k vydání: LLVM, Clang, LLD, Extra Clang Tools a Libc++.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (18%)
     (6%)
     (0%)
     (11%)
     (27%)
     (2%)
     (5%)
     (2%)
     (12%)
     (26%)
    Celkem 958 hlasů
     Komentářů: 25, poslední 3.2. 19:50
    Rozcestník

    Dotaz: pdftotext a špatná diakritika

    18.4.2010 11:10 Begleiter | skóre: 47 | blog: muj_blog | Doma
    pdftotext a špatná diakritika
    Přečteno: 1219×
    Příloha:

    Dobrý den,

    snažím se převést jednu PDF knížku v češtině do UTF-8 plain text. Používám následující příkaz:

    pdftotext -enc UTF-8 -eol unix kniha.pdf kniha.txt
    

    Ale bohužel pdftotext si neporadí s diakritikou — vystup_z_pdftotext.png ukazuje, jak to s diakritikou dopadlo (otevírám to v editoru gedit).

    Budu moc vděčný za jakoukoli radu, jak diakritiku zprovoznit.


    Řešení dotazu:


    Odpovědi

    18.4.2010 12:29 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skusil by som opraviť to pomocou sedu: sed 'y/??.../ÉÁ.../' kniha.txt > kniha.ok
    18.4.2010 12:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za odpověď, ale bohužel toto nepomohlo.

    18.4.2010 14:09 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Samozrejme namiesto tych otaznikov si musite dat tie znaky ktore tam su necitatelne.
    18.4.2010 14:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Jsem já to vůl! :-D Děkuju za nakopnutí, vyzkouším.

    18.4.2010 14:18 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Zasek jsem se na tom, že nevím, jak zadat ty "Unicode znaky" (myslím ty znaky v tom obdélníčku).

    18.4.2010 18:05 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skopiruj ich z toho zkomoleneho textu, myslim ze by to malo fungovat.
    18.4.2010 12:52 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Z toho obrázka nie je jasné, či to je naozaj utf-8, alebo to je windows-1250 zobrazované v kódovaní iso-8859-2.

    Ak ide o tú prvú možnosť, tak sa utf8 bude musieť konvertovať do 8859_2 a potom cp1250 do utf8.
    18.4.2010 12:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za reakci. Ale jsem z toho jelen. Mohl byste být konkrétnější?

    18.4.2010 13:01 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Ak je problém to, čo si myslím, tak v pdf je použité 8 bitové kódovanie. Je tam použité kódovanie cp1250, ale program pdftotxt si myslel, že to je 8859_2.

    Takže postup bude:
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
    iconv --from cp1250 --to utf8 subor-1250.txt > subor-utf8.txt
    18.4.2010 14:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    pdftotext -enc UTF-8 -eol unix kniha.pdf subor.txt
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
     iconv: nepovolená vstupní sekvence na pozici 122
    
    18.4.2010 18:44 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju moc, chrono! :-) Vyřešeno! Řešení je napsáno výše, jen je ještě třeba přidat parametr -c programu iconv. Já ho radši přidal k oběma příkazům.

    18.4.2010 17:12 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Podle tech znaku to vypada, ze to z pdftotextu vypadne v CP1250. Zkusil bych tedy vysledek prevest iconv -f windows-1250 -t utf-8 < kniha.txt > knihautf8.txt

    Tomas
    18.4.2010 17:21 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    iconv: nepovolená vstupní sekvence na pozici 2243
    

    Skončí to touhle chybou. :-( Přesto díky za pomoc.

    18.4.2010 17:31 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    To uz je docela daleko. Mozna je tam vazne nejaky podivny znak. Bud bych se podival, co tam je, nebo bych rovnou doplnil parametry iconvu o -c.

    Tomas
    18.4.2010 18:48 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Hrozně moc ti děkuju za nakopnutí, co se týká parametru -c programu iconv. Ukázal se jako klíčový parametr. Ještě jednou díky!

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.