Standardní knihovna pro Python

Standardní knihovna pro Python - 5 (řetězce)

Články

Standardní knihovna pro Python - 5 (řetězce)

Po delší odmlce je tu zase pokračování seriálu o knihovně jazyka Python. Dnes začneme další téma - řetězce.

Po delší odmlce vás vítám u již pátého pokračování seriálu o pythonské knihovně. Dnes se již nebudeme zabývat funkcemi z modulu __builtins__, ale vrhneme se na práci s řetězci. Předpokládám, že většina čtenářů ví, jak se s řetězci pracuje, ale neodpustím si jednoduché opakování.

V Pythonu je možné pracovat se dvěma typy řetězcových objektů. Prvním typem je obyčejný řetězec, který je 8bitový, a jeho interpretace záleží na nastaveném kódování. Druhým jsou Unicode řetězce. Standardně se skládají z 16bitových znaků, které jsou zakódovány ve formátu UCS-2. Od verze 2.2 je možné používat i 32bitové Unicode řetězce kódované v UCS-4; toto nastavení se však povoluje při překladu interpretru. Mezi oběma typy řetězců je možné provádět konverze. Je možné rovněž konvertovat řetězce z/do jiného kódování než je systémové.

Nejdříve se začneme zabývat metodami řetězců. Stejné funkce je možné nalézt i v modulu string, ty jsou však už delší dobu označeny jako deprecated (čili nedoporučované).

Poznámka: Mezi vydáním předchozího a tohoto dílu došlo k uvolnění nové verze Pythonu (v. 2.5). V tomto článku i dalších pokračováních bude na tuto skutečnost brán zřetel a rozdíly mezi jednotlivými verzemi budou komentovány.

Metody řetězců

>>> retezec = "Kobyla má malý bok" >>> print retezec.center(len(retezec) + 4, '!') !!Kobyla má malý bok!! >>> print retezec.center(len(retezec) + 3, '!') !!Kobyla má malý bok! >>> print retezec.center(len(retezec) - 3, '!') Kobyla má malý bok >>>

>>> unicode = "kobyla má malý bok".decode("utf-8") # utf-8 => unicode >>> unicode u'kobyla m\xe1 mal\xfd bok' # odpovidajici unicode retezec >>> print unicode kobyla má malý bok # zde je videt, ze byl retezec zkonvertovan spravne >>> iso = "kobyla má malý bok".decode("iso8859-2") # iso-8859-2 => unicode >>> iso u'kobyla m\u0102\u0104 mal\u0102\u02dd bok' >>> # za kazdy cesky znak se ulozi 2 unicode znaky, ... # protoze me nastaveni locale je utf8 (neASCII ... # znaky jsou vice bytove), ale pri prevodu bylo ... # zadano kodovani iso8859-2 (1 bytove) ... >>> print iso kobyla mĂĄ malĂ˝ bok >>> "kobyla má malý bok".decode() # neodpovidajici vstup, viz odstavec vyse Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 8: ordinal not in range(128) >>>

>>> retezec = u"kobyla má malý bok" >>> retezec.encode("utf-8") # unicode => utf-8 'kobyla m\xc3\xa1 mal\xc3\xbd bok' >>> retezec.encode("iso-8859-2") # unicode => iso-8859-2 'kobyla m\xe1 mal\xfd bok' >>> retezec.encode("ascii") # ta sama chyba jako u decode Traceback (most recent call last): File "", line 1, in ? UnicodeEncodeError: 'ascii' codec can't encode character u'\xe1' in position 8: ordinal not in range(128) >>> retezec.encode("ascii", "ignore") # na rozdil od decode v tomto pripade funguje 'ignore' 'kobyla m mal bok' >>> retezec.encode("ascii", "replace") # i 'replace' 'kobyla m? mal? bok' >>> retezec.encode("ascii", "xmlcharrefreplace") # rozkodovani pro pouziti na webu 'kobyla má malý bok' >>> retezec.encode("ascii", "backslashreplace") # a s lomitkovou interpretaci 'kobyla m\\xe1 mal\\xfd bok' >>> "kobyla ma maly bok".encode() # ASCII => ASCII 'kobyla ma maly bok' >>> "kobyla ma maly bok".encode("utf-8") # ASCII => utf-8 'kobyla ma maly bok' >>> print "kobyla ma maly bok".encode("utf-8") kobyla ma maly bok >>>

Diskuse k tomuto článku

Díky za seriál, bude se mi hodit. Může mi někdo poradit, jak poznám, jestli znak jde převést na číslo (tj. je 0-9)? Je nějaká obecná metoda jak to udělat i pro jiné jazyky (kromě zjistění ASCII kódu 0-9 a porovnání)?

30.11.2006 19:28 Vojta Drbohlav | skóre: 26 | blog: Blog | Strahov
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

>>> i = "5"
>>> i.isdigit()
True
>>>

30.11.2006 23:07 J.
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

jo, to je ono, díky

1.12.2006 09:36 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

Pro perl třeba $a =~ /^[+-]?\d+(?:\.\d+)?/ a nebo mnohem lépe a radostněji

use Scalar::Util qw(looks_like_number);
...
if (looks_like_number($a)) {
    ...
} else {
    ...
}
...

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

1.12.2006 16:38 Vojta Drbohlav | skóre: 26 | blog: Blog | Strahov
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

$a =~ /^[+-]?\d+(?:\.\d+)?/

No fuj...

1.12.2006 18:10 amnesiac
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

print "$a je cislo" if ($a eq ($a + 0))

Akorát je neošetřeno explicitní uvedení znaménka + .

4.12.2006 10:48 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

Akorát je neošetřeno explicitní uvedení znaménka + .

Ano, taková nepodstatná maličkost, když můžeme použít interní funkci perl api looks_like_number na nímž je Scalar::Util::looks_like_number pouze wrapper. Místo toho necháme perl zavolat tuto funkci hned dvakrát, pokusíme se o sčítání a nakonec ještě budeme porovnávat řetězce s tím výsledkem, že to nefunguje pro všechny případy (hloupé + na začátku). Aneb jak to dělat jednoduše, když to jde složitě, že?

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

7.12.2006 18:18 J.
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

Jelikož název funkce je dost výstižný, líbí se mi to víc a to v Perlu vůbec nedělám. Samozřejmě všechno lze dělat několika způsoby a v Perlu i zvlášť nepřehledně (neříkám, že každý to tak dělá) :)

3.12.2006 19:22 mys elf
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 5 (řetězce)

V C existuje funkce isdigit() (v ctype.h).

Standardní knihovna pro Python - 5 (řetězce)

Metody řetězců

Seriál Standardní knihovna pro Python (dílů: 8)

Související články

Další články z této rubriky

Diskuse k tomuto článku