Portál AbcLinuxu, 1. května 2025 04:50
Regulární výrazy představují moderní, výkonnou a komplexní metodu pro prohledávání řetězců. Není divu, že mnoho jazyků práci s regulárními výrazy podporuje. Ani Python není výjimkou...
Regulární výraz (regular expression) je řetězec popisující celou množinu řetězců, neboli předpis pro podobné řetězce. Regulární výrazy programátorovi usnadní složitější prohledávání řetězců např. při kontrole vstupů nebo při parsování kódu (HTML, konfigurační soubory). Pokud chce uživatel v textu vyhledat nějaký řetězec, který nezná přesně, může zadat regulární výraz. Program pak nalezne všechny části textu, které danému výrazu odpovídají. Regulární výrazy v Pythonu pracují podobně jako zástupné znaky *
a ?
v shellu (místo *
je možné vložit jakékoliv množství znaků, místo ?
se vkládá jen jeden znak), mají však komplexnější využití.
Ve verzi 1.5 byla do Pythonu přidána podpora regulárních výrazů ve stylu Perl. Ta je zajišťována modulem re. V předchozích verzích byly regulární výrazy dostupné také, ale jednalo se o výrazy v emacsovém stylu (modul regex). Vzor regulárních výrazů je vždy zkompilován do byte kódu, který je poté zpracován srovnávacím kódem napsaným v jazyce C.
Vzhledem k tomu, že regulární výrazy často využívají speciální znaky a zpětné lomítko, je vhodné je zapisovat jako tzv. raw řetězce (r'\n' == '\\n').
Vzory regulárních výrazů se skládají z obyčejných znaků, které mají normální význam (např. "jméno", "Petr" atp.), a tzv. metaznaků. Jedná se o znaky, které mají speciální význam:
Potřebujete-li vyhledávat metaznak v jeho původním významu, můžete jej zpřístupnit přes zpětné lomítko (escapování).
Dále pak regulární výrazy v Pythonu umožňují pracovat se skupinami a obsahují speciálně předdefinované skupiny znaků - obojí si ukážeme v příštím díle.
Nutnou dávku teorie máme za sebou. Ukažme si nejdříve, jak se vlastně s regulárními výrazy pracuje:
>>> import re >>> retezec1 = "abcde" >>> retezec2 = "123" >>> vzor = re.compile(r"a+") >>> vzor.match(retezec1) <_sre.SRE_Match object at 0xb7bdf4b8> # pri nalezeni shody se vraci objekt Match, se kterym lze dale pracovat >>> vzor.match(retezec2) # v pripade,ze nebyla nalezena shoda, vraci None >>> re.match(r"[1-9]+?", retezec2) <_sre.SRE_Match object at 0xb7bdf560>
Jak je vidět, můžeme vzor nejdříve sami zkompilovat, což je vhodné při opakovaném porovnávání. V tomto případě voláme metody vráceného objektu. Funkce compile() může obsahovat ještě kombinaci parametrů, které se oddělují bitovým or ("|"):
Můžeme také volat funkci modulu re, které předáme pouze nezkompilovaný "raw string". Funkci je pak možné předávat stejné parametry jako výše. Modul obsahuje více funkcí (objekt zkompilovaného vzoru pak více metod); pro začátek se však omezíme pouze na match(). Na ostatní se zaměříme v dalších dílech.
Na závěr si předveďme několik příkladů, aby bylo jasně vidět, jak se zapisují vzory regulárních výrazů.
re.match(r"a+", retezec) # vyhleda 1 a vice znaku a re.match(r"a*", retezec) # vyhleda 0 a vice znaku a re.match(r"o?kov", retezec) # vyhleda okov nebo kov re.match(r"tel(efon)?$", retezec) # vyhleda tel nebo telefon na konci retezce re.match(r"^[0-9]{2}$", retezec) # vyhleda dvouciferne desitkove cislo (00 az 99), #+ktere je jedinym obsahem retezce re.match(r"[0-9a-fA-F]|[1-9a-fA-F][0-9a-fA-F]+", retezec) # vyhledava hexadecimalni cisla re.match(r"(19|20)[0-9]{2}", retezec) # vyhleda letopocet mezi roky 1900 a 2099 re.match(r"a\+b", retezec) # vyhleda 'a+b'
re.match(r"(19|20)[0-9]{2}", retezec) # vyhleda letopocet mezi roky 1900 a 2050hmm, možno tak v pythone
m/(?:19\d{2})|(?:20[0-4]\d)|2050/alebo druhý riadok
# vyhleda letopocet mezi roky 1900 a 2099 (vrátane)
m/^(?:0|(?!0)[0-9a-f]+)$/i
die "Zadany retezec neobsahuje letopocet od 1900 do 2099.\n" if $retezec !~ /(19|20)[0-9]{2}/;
?
#!/usr/bin/env python import re year_str = '1801d' if not re.match('(19|20)[0-9]{2}', year_str): raise SystemExit, 'Chyba formatu letopoctu'nebo takhle
year_str = '1801d' try: rok = int(year_str) except ValueError: raise SystemExit, '"%s" nelze prevest na cislo.' %year_str if rok < 1900 or rok > 2099: raise SystemExit, 'Rok %d je mimo interval 1900 a 2099.' %rok
die
prostě ukončí interpreter Perlu, takže v Pythonu by tomu odpovídalo exit
. Výjimka se dá pomocí except
zachytit a zpracovat ...
<rejp>ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.