Portál AbcLinuxu, 22. května 2024 08:27

Standardní knihovna pro Python - 7 (řetězce 3)

13. 2. 2007 | Jakub Matys
Články - Standardní knihovna pro Python - 7 (řetězce 3)  

Dnešním dílem ukončíme povídání o metodách řetězců. Uvedu některé zbývající funkce a ty, které jsem v minulých dílech opomenul.

split([sep[,maxsplit]])

Tato metoda pracuje přesně naopak než metoda join. Vrátí seznam slov volajícího řetězce, která jsou oddělena parametrem sep. Není-li sep zadán, nebo pokud je None, používají se jako oddělovače bílé znaky. Parametr maxsplit představuje, kolik rozdělení bude provedeno, zbytek řetězce je uložen na poslední místo v seznamu. Vrácený seznam bude tedy mít velikost maxsplit + 1. Pokud metoda narazí na dva oddělovače bezprostředně vedle sebe, vrátí prázdný řetězec. Jako oddělovač nemusí být použit jen jeden znak, zadáte-li delší řetězec, bude použit pro separaci. Má-li metoda rozdělit prázdný řetězec a byl jí předán parametr sep, vrátí jednoprvkový seznam obsahující prázdný řetězec. Pokud jí však nebude parametr předán, vrátí prázdný seznam.

>>> "1, 2, 3, 4".split(',')
['1', ' 2', ' 3', ' 4']
>>> "1, 2, 3, 4".split(", ")
['1', '2', '3', '4']
>>> "1,2,3,,5,6,,,9".split(',')
['1', '2', '3', '', '5', '6', '', '', '9']
>>> "1 2 3 4 5".split()
['1', '2', '3', '4', '5']
>>> ''.split('a')
['']
>>> ''.split()
[]
>>>
splitlines([keepends])

Vrátí seznam řádků volajícího řetězce. Čili jako oddělovač bude použit znak přechodu na nový řádek. Pokud budete chtít ponechat znaky pro přechod na nový řádek jako součásti jednotlivých fragmentů, musíte jako argument metody předat True.

>>> f = file("std_lib-7.html", 'r')
>>> x = f.read(300)
>>> x.splitlines()
['Standardn\xc3\xad knihovna pro Python - 7 (\xc5\x99et\xc4\x9bzce III)', 
'', '', '<dl>', '<dt><tt>split([sep[,maxsplit]])</tt></dt>', '<dd>',
'<p>Tato metoda pracuje p\xc5\x99esn\xc4\x9b naopak ne\xc5\xbe metoda join.
Vr\xc3\xa1t\xc3\xad seznam slov volaj\xc3\xadc\xc3\xadho ', 
'\xc5\x99et\xc4\x9bzce, kter\xc3\xa1 jsou odd\xc4\x9blena parametrem sep. 
Nen\xc3\xad-li sep zad\xc3\xa1n, nebo pokud je None, ', 
'pou\xc5\xbe\xc3\xadvaj\xc3\xad']
>>> x.splitlines(True)
['Standardn\xc3\xad knihovna pro Python - 7 (\xc5\x99et\xc4\x9bzce III)\n', 
'\n', '\n', '<dl>\n', '<dt><tt>split([sep[,maxsplit]])</tt></dt>\n', '<dd>\n',
'<p>Tato metoda pracuje p\xc5\x99esn\xc4\x9b naopak ne\xc5\xbe metoda join.
Vr\xc3\xa1t\xc3\xad seznam slov volaj\xc3\xadc\xc3\xadho \n', 
'\xc5\x99et\xc4\x9bzce, kter\xc3\xa1 jsou odd\xc4\x9blena parametrem sep. 
Nen\xc3\xad-li sep zad\xc3\xa1n, nebo pokud je None, \n', 
'pou\xc5\xbe\xc3\xadvaj\xc3\xad']
>>>
startswith(prefix[,start[,end]]

Vrátí True, pokud volající řetězec obsahuje prefix na začátku. Od verze 2.5 může být prefix také n-tice obsahující možnosti, které se mají porovnávat. Ke specifikaci rozsahu, který se má prohledávat, slouží parametry start a end.

>>> s = "/usr/local/bin/python2.5"
>>> s.startswith("/usr/local/bin")
True
>>> s.startswith(("/usr/bin", "/usr/sbin", "/usr/local/bin"))
True
>>> s.startswith("/bin",10)
True
>>> s.startswith("/bin",10, 12)
False
>>>
strip([chars])

Vrací kopii řetězce, která je oříznutá zprava i zleva. Argument chars obsahuje množinu všech znaků, které mají být oříznuty. Odstraňování znaků bude přerušeno v momentě, kdy metoda narazí na znak, který není uveden v chars. V případě, že bude parametr vynechán, budou se ořezávat pouze mezery.

Na příkladu je vidět, že metody lstrip a rstrip (viz minulý díl) pouze rozšiřují funkci strip.

>>> s = "www.abclinxu.cz"
>>> s.strip("wcz.")
'abclinxu'
>>> s.lstrip("wcz.").rstrip("wcz.")
'abclinxu'
>>>
swapcase()

Vrací kopii řetězce, která má zaměněny velikosti znaků. Tj. malá písmena se změní na velká a naopak. U 8bitových znaků záleží na nastavení locale.

>>> "MALA pismena velka PISMENA".swapcase()
'mala PISMENA VELKA pismena'
>>> print "MALÁ písmena velká PÍSMENA".swapcase()
malÁ PíSMENA VELKá pÍsmena
>>> print u"MALÁ písmena velká PÍSMENA".swapcase()
malá PÍSMENA VELKÁ písmena
>>>
title()

Vrací řetězec ve formátu nadpisu - všechna počáteční písmena jsou velká. Stejně jako u předcházející metody jsou 8bitové řetězce závislé na nastavení locale.

>>> "standardni knihovna pro python".title()
'Standardni Knihovna Pro Python'
>>> print "česká republika".title()
čEská Republika
>>> print u"česká republika".title()
Česká Republika
>>>
translate(table[,deletechars])

Vrací nový řetězec, který je přemapován pomocí převodní tabulky table. Znaky uvedené v parametru deletechars jsou z řetězce odstraněny před jeho převodem. table musí být řetězec o 256 znacích. Tabulka se vytváří pomocí funkce string.maketrans().

# -*- coding: iso-8859-2 -*- 
import string

line="Žluťoučký kůň pěl ďábelské ódy"

table=string.maketrans("áčďéěíňóřšťúůýžÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ",\
 "acdeeinorstuuyzACDEEINORSTUUYZ")
print line.translate(table)

Použitý příklad je z webu py.cz.

Funkce maketrans (potažmo translate) nepracovala korektně při použití systémového kódování UTF-8. Nebo alespoň mně se nepodařilo zjistit, jak s ním pracovat. Jediné, co mi Google prozradil, je, že "translate and maketrans don't love utf-8" (viz converting some french chars with python. Příklad použití utf-16, který mi však s češtinou nefungoval (francouzsky však ano :-/).

    import string
    french=u"15 résultats trouvés".encode("utf_16")
    
    sfrom = u"àâäéèêëïîôöûùüç".encode("utf_16")
    sto   = u"aaaeeeeiioouuuc".encode("utf_16")
    print french.translate( string.maketrans(sfrom,sto) )

Máte-li někdo nějaké zkušenosti s kódováním utf-8, uveďte je, prosím, v diskuzi.

upper()

Převede všechny znaky na velké. Pro korektní převádění českých znaků v obyčejných řetězcích musíte mít správně nastavené locale.

zfill(width)

Vrací nový řetězec o délce width, který je zleva vyplněn znaky 0. width musí být větší než délka volajícího řetězce, jinak je vrácen tento řetězec nezměněn.

>>> "255".zfill(5)
'00255'
>>>

Tímto ukončíme povídání o metodách řetězců. V příštích několika dílech si budeme povídat o modulu re, to jest o regulárních výrazech. Ty slouží k vyhledávání dat v řetězcích podle určitého vzoru - ale nerad bych moc předbíhal.

Seriál Standardní knihovna pro Python (dílů: 8)

První díl: Standardní knihovna pro Python - 1 (builtins), poslední díl: Standardní knihovna pro Python - 8 (regulární výrazy 1).
Předchozí díl: Standardní knihovna pro Python - 6 (řetězce 2)
Následující díl: Standardní knihovna pro Python - 8 (regulární výrazy 1)

Související články

Další články z této rubriky

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.