Portál AbcLinuxu, 26. dubna 2024 03:25


Dotaz: pdftotext a špatná diakritika

18.4.2010 11:10 Begleiter | skóre: 47 | blog: muj_blog | Doma
pdftotext a špatná diakritika
Přečteno: 1150×
Odpovědět | Admin
Příloha:

Dobrý den,

snažím se převést jednu PDF knížku v češtině do UTF-8 plain text. Používám následující příkaz:

pdftotext -enc UTF-8 -eol unix kniha.pdf kniha.txt

Ale bohužel pdftotext si neporadí s diakritikou — vystup_z_pdftotext.png ukazuje, jak to s diakritikou dopadlo (otevírám to v editoru gedit).

Budu moc vděčný za jakoukoli radu, jak diakritiku zprovoznit.


Řešení dotazu:


Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

18.4.2010 12:29 fraxinus | skóre: 20 | blog: fraxinus
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
Odpovědět | | Sbalit | Link | Blokovat | Admin
Skusil by som opraviť to pomocou sedu: sed 'y/??.../ÉÁ.../' kniha.txt > kniha.ok
18.4.2010 12:34 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

Děkuju za odpověď, ale bohužel toto nepomohlo.

18.4.2010 14:09 fraxinus | skóre: 20 | blog: fraxinus
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
Samozrejme namiesto tych otaznikov si musite dat tie znaky ktore tam su necitatelne.
18.4.2010 14:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

Jsem já to vůl! :-D Děkuju za nakopnutí, vyzkouším.

18.4.2010 14:18 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

Zasek jsem se na tom, že nevím, jak zadat ty "Unicode znaky" (myslím ty znaky v tom obdélníčku).

18.4.2010 18:05 fraxinus | skóre: 20 | blog: fraxinus
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
Skopiruj ich z toho zkomoleneho textu, myslim ze by to malo fungovat.
18.4.2010 12:52 chrono
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
Odpovědět | | Sbalit | Link | Blokovat | Admin
Z toho obrázka nie je jasné, či to je naozaj utf-8, alebo to je windows-1250 zobrazované v kódovaní iso-8859-2.

Ak ide o tú prvú možnosť, tak sa utf8 bude musieť konvertovať do 8859_2 a potom cp1250 do utf8.
18.4.2010 12:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

Děkuju za reakci. Ale jsem z toho jelen. Mohl byste být konkrétnější?

18.4.2010 13:01 chrono
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
Ak je problém to, čo si myslím, tak v pdf je použité 8 bitové kódovanie. Je tam použité kódovanie cp1250, ale program pdftotxt si myslel, že to je 8859_2.

Takže postup bude:
iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
iconv --from cp1250 --to utf8 subor-1250.txt > subor-utf8.txt
18.4.2010 14:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
pdftotext -enc UTF-8 -eol unix kniha.pdf subor.txt
iconv --from utf8 --to 8859_2 subor.txt > subor-1250.txt
 iconv: nepovolená vstupní sekvence na pozici 122
18.4.2010 18:44 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

Děkuju moc, chrono! :-) Vyřešeno! Řešení je napsáno výše, jen je ještě třeba přidat parametr -c programu iconv. Já ho radši přidal k oběma příkazům.

18.4.2010 17:12 tomk
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
Odpovědět | | Sbalit | Link | Blokovat | Admin

Podle tech znaku to vypada, ze to z pdftotextu vypadne v CP1250. Zkusil bych tedy vysledek prevest iconv -f windows-1250 -t utf-8 < kniha.txt > knihautf8.txt

Tomas
18.4.2010 17:21 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika
iconv: nepovolená vstupní sekvence na pozici 2243

Skončí to touhle chybou. :-( Přesto díky za pomoc.

18.4.2010 17:31 tomk
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

To uz je docela daleko. Mozna je tam vazne nejaky podivny znak. Bud bych se podival, co tam je, nebo bych rovnou doplnil parametry iconvu o -c.

Tomas
18.4.2010 18:48 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: pdftotext a špatná diakritika

Hrozně moc ti děkuju za nakopnutí, co se týká parametru -c programu iconv. Ukázal se jako klíčový parametr. Ještě jednou díky!

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.