Python 3 a kódování (vyřešeno)

Zdar a sílu,

řeším následující problém: Mám program v Pythonu 3, který mj. potřebuje načíst nějaká data z CSV souboru. Python 3 normálně používá pro řetězce Unicode a zjevně vyžaduje UTF-8 (u souborů) na vstupu (když jsem mu předhodil soubor s diakritikou v kódování windows-1250, zařval, že chce utf8). Na několika linuxových mašinách s Pythonem 3.1.3 a UTF-8 nebyl problém se vstupním souborem v UTF-8, ale na MS Windows Vista prý řve:

Traceback (most recent call last):
 File "tui.py", line 91, in <module>
   deck.csv_import(filename)
 File "D:\zima\backend.py", line 83, in csv_import
   for row in reader:
 File "c:\Python31\lib\encodings\cp1250.py", line 23, in decode
   return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x88 in position 118: character maps to <undefined>

Ta (ne)zajímavá část programu je jednoduché:

reader = csv.reader(open(filename))
for row in reader:
  self.add(Card(row[0], row[1]))

Dělám někde chybu já? Nebo je chyba v Pythonu/jehoVistách? Jak zařídit nějakou použitelnou automatickou detekci kódování?

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

Odpovědi

Funkci open lze předat parametr encoding, asi by tedy pomohlo něco takového: csv.reader(open(filename, 'utf8'))

Automatická detekce není stoprocentní, ale můžeš zkusit chardet. Asi jediné kódování, které lze přesně detekovat, je UTF-16, protože text v UTF-16 by měl na začátku obsahovat BOM (byte order mark).

python 3 nevyzaduje utf-8, on ho pouze predpoklada .... a jak bylo receno vyse funkce open() ma parametr encoding ...

a dobre je se podivat obcas zde : http://docs.python.org/py3k/

USE="-gnome -kde";turris

11.2.2011 22:11 mimi.vx | skóre: 37 | blog: Mimi.VX | Praha
Rozbalit Rozbalit vše Re: Python 3 a kódování

a zapomnel sem dodat ze widle jsou vnitrne UTF-16 a;e kvuli spetne kompaktibilite ukladaji vse v narodnim WIN kodovani .. --> u CZ varianty WIN-1250 ...

USE="-gnome -kde";turris

13.2.2011 00:59 |🇵🇸 | skóre: 94 | blog:
Rozbalit Rozbalit vše Re: Python 3 a kódování

Prosimtě, co je to kompaktibilita?

Jestliže tam UTF-8 je a on ho předpokládá, ale spadne na tom, že se snaží ho interpretovat jako windows-1250, je někde chyba. Kódování mu vnutit můžu, ale nebude se pak bránit (odpovím si sám: bude), když si uživatel ten soubor s daty upraví nebo rovnou vytvoří na wokenících s windows-1250...?

Jinak do dokumentace jsem se koukal, ale na špatný roh.

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

Zrovna jsem na stejný problém narazil na školení. Není pravda, že Python obecně vyžaduje či předpokládá UTF-8, naopak se snaží použít systémové kódování. To je na Windows trochu problém, protože nová textová API fungují na Windows obecně v Unicode (dekódování řeší systém), zatímco v Pythonu až po 3.5 se používá staré API a tím pádem se může dít ledacos. Řešením je podle mě si kódování explicitně říct, explicitně překódovat binární string nebo používat Python 3.6.

Co se týče verze 3.6, nezkoušel jsem to, ale píše se o tom v changelogu, který se odkazuje na následující dokumenty.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

12.3.2017 00:01 k3dAR | skóre: 63
Rozbalit Rozbalit vše Re: Python 3 a kódování

mam tai takovej pocit, ze v dobe zalozeni tohoto vlakna v unoru 2011 jeste python 3.6 nebyl ;)
Python 3.6 was released on December 23, 2016

porad nemam telo, ale uz mam hlavu... nobody

12.3.2017 10:42 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Python 3 a kódování

Na tom tak úplně nesejde, jestli byl nebo nebyl, spíš by mě zajímalo, proč mi ábíčko tenhle dotaz vůbec nabízelo.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

12.3.2017 19:14 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: Python 3 a kódování

mozno je to vlastnost, obcas sa objavia na vrchu stare problemy.

toto sa ti nezobrazilo?: "Pozor, chystáte se komentovat 2220 dní starý dotaz. Pokud se nechystáte vložit či doplnit řešení tohoto dotazu, ale naopak se chcete na něco zeptat, položte raději nový dotaz."

12.3.2017 20:37 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Python 3 a kódování

Nezobrazilo kupodivu. Zobrazuje se mi to až teď. :D Asi skvrny na slunci.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

Dotaz: Python 3 a kódování

Odpovědi