abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

16.11. 23:44 | IT novinky

Společnosti Dell a Canonical společně představily 5 nových počítačů Dell Precision s předinstalovaným Ubuntu. Jedná se o 4 notebooky a 1 all-in-one počítač. Cena počítačů s Ubuntu je o 100 dolarů nižší než jejich cena s Windows 10.

Ladislav Hagara | Komentářů: 9
16.11. 22:55 | Nová verze

Po pěti měsících vývoje od vydání verze 4.8 byla vydána nová verze 4.9 svobodného open source redakčního systému WordPress. Kódové označením Tipton bylo vybráno na počest amerického jazzového muzikanta a kapelníka Billyho Tiptona.

Ladislav Hagara | Komentářů: 0
16.11. 22:11 | Pozvánky

Spolek OpenAlt zve příznivce otevřených technologií a otevřeného přístupu na 146. brněnský sraz, který proběhne v pátek 17. listopadu od 18:00 hodin v restauraci Bogota na Nových Sadech.

Ladislav Hagara | Komentářů: 0
16.11. 21:55 | Nová verze

Dle plánu byla vydána nová verze 9.2.1 živé linuxové distribuce Slax. Novinkou je především přechod ze Slackware na Debian a z KDE na Fluxbox.

Ladislav Hagara | Komentářů: 2
15.11. 22:44 | Zajímavý projekt

Vítězným projektem letošního ročníku soutěže určené vývojářům open source hardwaru Hackaday Prize se stal podvodní kluzák (YouTube, Onshape). Cenu za nejlepší produkt získala braillská klávesnice pro chytré telefony Tipo (YouTube).

Ladislav Hagara | Komentářů: 0
15.11. 06:33 | Nová verze

Byla vydána verze 3.3 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Přehled změn v příslušném seznamu. Řešena je také řada bezpečnostních problémů.

Ladislav Hagara | Komentářů: 3
15.11. 00:11 | Nová verze

Byla vydána beta verze Linux Mintu 18.3 s kódovým jménem Sylvia. Na blogu Linux Mintu jsou hned dvě oznámení. První o vydání Linux Mintu s prostředím MATE a druhé o vydání Linux Mintu s prostředím Cinnamon. Stejným způsobem jsou rozděleny také poznámky k vydání (MATE, Cinnamon) a přehled novinek s náhledy (MATE, Cinnamon). Linux Mint 18.3 bude podporován až do roku 2021.

Ladislav Hagara | Komentářů: 0
14.11. 21:44 | Nová verze

Byla vydána verze 5.2.0 svobodného integrovaného vývojového prostředí KDevelop. Přímo z menu KDevelopu lze nově analyzovat aplikace napsané v C/C++ pomocí nástroje Heaptrack. Vylepšena byla podpora programovacích jazyků C++, PHP a Python. Ke stažení a k vyzkoušení je binární balíček s KDevelopem 5.2.0 ve formátu AppImage.

Ladislav Hagara | Komentářů: 8
14.11. 17:33 | Nová verze

MojeFedora.cz informuje, že bylo oficiálně oznámeno vydání Fedory 27. Ve finální verzi vycházejí dvě edice: Workstation pro desktopové a Atomic pro cloudové nasazení. Fedora Server vzhledem k náročnosti přechodu na modularitu vychází pouze v betaverzi a finální verze je naplánována na leden. Vedle nich jsou k dispozici také alternativní desktopy v podobě KDE Plasma, Xfce a další a k tomu laby – upravené vydání Fedory například pro designery, robotiku, vědecké použití atd. Stahovat lze z Get Fedora.

Ladislav Hagara | Komentářů: 21
14.11. 17:22 | Pozvánky

Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tradičně první čtvrtek před třetím pátkem v měsíci: 16. listopadu od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).

xkucf03 | Komentářů: 0
Jak se vás potenciálně dotkne trend odstraňování analogového audio konektoru typu 3,5mm jack z „chytrých telefonů“?
 (9%)
 (1%)
 (1%)
 (1%)
 (73%)
 (14%)
Celkem 680 hlasů
 Komentářů: 36, poslední včera 18:43
    Rozcestník

    Dotaz: pdftotext a špatná diakritika

    18.4.2010 11:10 Begleiter | skóre: 47 | blog: muj_blog | Doma
    pdftotext a špatná diakritika
    Přečteno: 996×
    Příloha:

    Dobrý den,

    snažím se převést jednu PDF knížku v češtině do UTF-8 plain text. Používám následující příkaz:

    pdftotext -enc UTF-8 -eol unix kniha.pdf kniha.txt
    

    Ale bohužel pdftotext si neporadí s diakritikou — vystup_z_pdftotext.png ukazuje, jak to s diakritikou dopadlo (otevírám to v editoru gedit).

    Budu moc vděčný za jakoukoli radu, jak diakritiku zprovoznit.


    Řešení dotazu:


    Odpovědi

    18.4.2010 12:29 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skusil by som opraviť to pomocou sedu: sed 'y/??.../ÉÁ.../' kniha.txt > kniha.ok
    18.4.2010 12:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za odpověď, ale bohužel toto nepomohlo.

    18.4.2010 14:09 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Samozrejme namiesto tych otaznikov si musite dat tie znaky ktore tam su necitatelne.
    18.4.2010 14:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Jsem já to vůl! :-D Děkuju za nakopnutí, vyzkouším.

    18.4.2010 14:18 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Zasek jsem se na tom, že nevím, jak zadat ty "Unicode znaky" (myslím ty znaky v tom obdélníčku).

    18.4.2010 18:05 fraxinus | skóre: 20 | blog: fraxinus
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Skopiruj ich z toho zkomoleneho textu, myslim ze by to malo fungovat.
    18.4.2010 12:52 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Z toho obrázka nie je jasné, či to je naozaj utf-8, alebo to je windows-1250 zobrazované v kódovaní iso-8859-2.

    Ak ide o tú prvú možnosť, tak sa utf8 bude musieť konvertovať do 8859_2 a potom cp1250 do utf8.
    18.4.2010 12:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju za reakci. Ale jsem z toho jelen. Mohl byste být konkrétnější?

    18.4.2010 13:01 chrono
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    Ak je problém to, čo si myslím, tak v pdf je použité 8 bitové kódovanie. Je tam použité kódovanie cp1250, ale program pdftotxt si myslel, že to je 8859_2.

    Takže postup bude:
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
    iconv --from cp1250 --to utf8 subor-1250.txt > subor-utf8.txt
    18.4.2010 14:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    pdftotext -enc UTF-8 -eol unix kniha.pdf subor.txt
    iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
     iconv: nepovolená vstupní sekvence na pozici 122
    
    18.4.2010 18:44 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Děkuju moc, chrono! :-) Vyřešeno! Řešení je napsáno výše, jen je ještě třeba přidat parametr -c programu iconv. Já ho radši přidal k oběma příkazům.

    18.4.2010 17:12 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Podle tech znaku to vypada, ze to z pdftotextu vypadne v CP1250. Zkusil bych tedy vysledek prevest iconv -f windows-1250 -t utf-8 < kniha.txt > knihautf8.txt

    Tomas
    18.4.2010 17:21 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
    iconv: nepovolená vstupní sekvence na pozici 2243
    

    Skončí to touhle chybou. :-( Přesto díky za pomoc.

    18.4.2010 17:31 tomk
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    To uz je docela daleko. Mozna je tam vazne nejaky podivny znak. Bud bych se podival, co tam je, nebo bych rovnou doplnil parametry iconvu o -c.

    Tomas
    18.4.2010 18:48 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

    Hrozně moc ti děkuju za nakopnutí, co se týká parametru -c programu iconv. Ukázal se jako klíčový parametr. Ještě jednou díky!

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.