Regulární výrazy

Regulární výraz (regular expression, dále jen regexp) slouží k vyhledání části řetězce, kterou předem (úplně) neznáme nebo která může mít více podob. Používá se v programovacích a skriptovacích jazycích.

Obecné regulární výrazy

Mezi obecné regexpy, které podporují všechny možné implementace (Bash, Perl, grep, GNU sed, GNU awk, glibc /regex.h/, atd.), patří množiny znaků. Ty reprezentují jeden znak a používají se pro označení části řetězce, která může mít různé podoby (různé znaky v určité části). Zapisují se mezi hranaté závorky.

Přidáte-li za výraz (např. množinu či znak) hvězdičku, změní se jeho význam. Místo jednoho výskytu se bude hledat libovolný počet výskytů; žádný až nekonečno. Například a* odpovídá libovolnému počtu písmen a za sebou. Výraz .* odpovídá úplně všem řetězcům.

Množiny znaků lze přidáním ^ na začátek negovat tak, že znaky v nich obsažené se v daném řetězci nesmějí vyskytovat. Přidáte-li znak ^ jinam, než na začátek, stane se prostým znakem z množiny.

Regexp vždy odpovídá své nejdelší možné variantě v řetězci (v Perlu toto chování lze ovlivnit, vizte níže), takže použijete-li například o odstavec výše zmíněný výraz .* a ihned za něj dáte například [0-9]* (libovolný počet číslic), tak si všimněte, že výraz .* využil své moci a označil vše, co jen mohl a na množinu [0-9]* nezbylo nic, místo toho aby se .* při prvním výskytu číslice zastavil, jak by se někdo mohl mylně domnívat. Zmiňuji se o tom zde proto, že tyto znegované množiny znaků jsou univerzálním řešením tohoto problému. Použijete-li místo původního výrazu .*[0-9]* výraz [^0-9]*[0-9]*, tak výraz [0-9]* označí celé první číslo, na které narazí, jelikož [^0-9]* se před číslicí zastaví. Pro lepší pochopení jsem níže (do části článku o GNU sedu) přidal dva ilustrující příkazy, ale nepředbíhejme. Následuje ukázka znegovaných množin znaků:

Dále mezi obecné regexpy patří symboly začátku a konce řádku, které mají ovšem tento význam jen tehdy, jsou-li správně umístěny (začátek na začátku a konec na konci výrazu).

Rozšířené regulární výrazy

Rozšířené (extended) regexpy značně rozšiřují možnosti těch obecných. Často je třeba je explicitně povolit. Bash je nepodporuje, Perl a GNU awk je používají běžně, grep potřebuje přepínač -E (příp. -P pro použití perlových regexpů; tento přepínač je dostupný, jen pokud byl grep zkompilován s podporou libpcre), GNU sed přepínač -r a při použití regex.h v C/C++ musíte předat funkci regcomp() flag REG_EXTENDED.

Rozšířené jsou možnosti pro zachycení řetězce, ve kterém se určité části několikrát za sebou opakují. Tyto znaky se zapíší za určitou část regexpu.

Kromě množin znaků jsou dostupné i množiny řetězců resp. výrazů, které se zapisují do kulatých závorek a oddělují pomocí znaku | (pipe).

Jak jsem naznačil, množina řetězců není úplně správný název, protože zrovna tak může jít o regexpy. Následující množina je složená ze dvou výrazů. Hned za množinou následuje otazník, který znamená, že výskyt všech výrazů z množiny je volitelný. První výraz značí jeden nebo více výskytů znaků a a b za sebou a druhý výraz odpovídá pěti libovolným číslicím.

Pokud chcete regexp odpovídající například sudému počtu řetězců, lze použít toto:

Vysvětlení: Máme regexp na označení dvou výskytů řetězce linux za sebou. Když se celý výraz obalí dalšími závorkami, hvězdička za ním zajistí označení též čtyř, šesti, osmi, deseti (atd.) výskytů. Pokud chcete minimálně dva výskyty, použijte místo hvězdičky plus.

GNU sed

Kromě toho, že sed podporuje nahrazování řetězců odpovídajících regexpům, má zajímavou vlastnost, a tou je podpora referencí. Když si regexpem vyberete určitou část řetězce a chcete ji použít i v nové (nahrazující) části, máte možnost použít příkazy podobné následujícím. Předávám sedu řetězec přes echo, abyste si to pro lepší představu mohli rovnou vyzkoušet.

Za reference jsou považovány pouze regexpy v kulatých závorkách, tedy množiny výrazů.

Perl

Perlové regexpy obsahují několik vlastních rozšíření. Jedním z nich jsou množiny.

Tyto zkrácené zápisy množin se používají úplně stejně jako ty běžné; \d+ – ekvivalent [0-9]+ či [[:digit:]]+, \s{3,} – tři a více whitespace nebo třeba \W* – libovolný počet znaků, které se nevyskytují v množině [[:alnum:]]. Pokud chcete, aby Perl do množin, jako je \w, zahrnoval i písmena s diakritikou, kromě českých locales je třeba v programu nastavit jejich použití:

Perl poskytuje možnost kontroly nad tím, zda se bude označovat nejkratší nebo nejdelší možná varianta výrazu. Pokud chceme tu nejkratší, za daný výraz přidáme otazník; nejdelší je výchozí chování regexpů (nejen perlových).

Toto zdaleka není vše, co Perl s regulárními výrazy umí – popsat vše by vydalo na dost dlouhý seriál. Jako zdroj dalších informací můžete použít například manuálovou stránku perlre(1).

Regulární výrazy v praxi

Asi neuškodí, když si ukážeme nějaké to využití regulárních výrazů v praxi.

Závěr

Regexpy se jeví složitější, než ve skutečnosti jsou. Ovšem až na ty perlové, ty složité opravdu jsou :-). Po nějakém čase už píšete rozšířené regexpy bez velkého přemýšlení. Svoje zkušenosti můžete prověřit třeba interaktivními testy na lexmasterclass.com.

Diskuse k tomuto článku

Regularni vyrazy nejsou slozite, protoze slozite je to teprve bez nich =)

23.1.2008 02:02 kafa | skóre: 10
Rozbalit Rozbalit vše Re: Regulární výrazy

Přesně tak. Vždycky mě velmi pobaví, když někdo právě na regulárních výrazech demonstruje údajnou nečitelnost (a nepoužitelnost) Perlu. Já už bych nikdy nechtěl dělat kontrolu vstupů v jazyce, který neumožňuje regulární výrazy. Na tu dřinu se ještě pamatuju.

23.1.2008 14:06 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

Souhlasím, přepisoval jsem slovnik.cz CLI do Perlu a díky chybějícímu switch/case (bude v Perl 6, btw.) jsem to vyřešil daleko snadněji pomocí regexpů.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

23.1.2008 14:33 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Regulární výrazy

BTW: given/when už je i v pětkové řadě Perlu.

23.1.2008 14:38 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: Regulární výrazy

my $mode_map = {
  'show' => \ &do_show,
  'submit' => \ &do_submit,
};

$mode_map->{$mode}->(@param);

uznávam, na given/when to nemá, obyčajný switch/case to zvládne v pohode.

pre parsovanie textu si pozri \G a modifikátory cg

Výbornej článek. Jelikož ve tvorbě regexp trochu plavu (nebo spíš pro kontrolu), tak používám www.regexp.cz. Co se týká praktického použití, tak třeba nedávno místo abych se paplal s vytvářením výrazu na změnu názvů souborů, tak jsem raději použil KRename, ale stejně to bylo kontraproduktivní, protože tu změnu jsem z jistých důvodů musel dělat několikrát. Takže místo abych jen v historii našel příkaz a znovu spustil, tak jsem musel znovu projít cestu Next->Next v KRename.

<null>

23.1.2008 07:55 Dejv | skóre: 37 | blog: Jak ten blog nazvat ... ? | Ostrava
Rozbalit Rozbalit vše Re: Regulární výrazy

Fajn odkaz, ale dostala se ti do neho chybicka :-)

Spravne to ma byt www.regexp.cz

Dejv

Pevně věřím, že zkušenější uživatelé mě s mými nápady usměrní a pošlou tam, kam tyto nápady patří...

takže použijete-li například o odstavec výše zmíněný výraz .* a ihned za něj dáte například [0-9]* (libovolný počet číslic), tak si všimněte, že výraz .* využil své moci a označil vše, co jen mohl a na množinu [0-9]* zbyla už jen poslední číslice v řetězci

Na [0-9]* nezbyde nic.

23.1.2008 00:39 Honza Balák | skóre: 23 | blog: Jaxův linuxový zápisník | Předklášteří
Rozbalit Rozbalit vše Re: Regulární výrazy

Taky mi to bylo divný, protože vím, že ing. Brandejs na přednáškách říkal, že hvězdička je maximálně žravá.

<null>

23.1.2008 07:29 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

Omlouvám se, moje chyba, hlavně že dole v ukázce u sedu mám potom [0-9]+.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

23.1.2008 08:25 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Re: Regulární výrazy

Opraveno (máslo i na mojí hlavě - měl jsem si toho všimnout).

Len taka drobnost: [a-zA-Z] != [:alpha:]
myslim, ze je to armensky jazyk, kde pismeno "z" je cca v druhej tretine abecedy ;-)

Project Satan infects Calculon with Werecar virus

23.1.2008 10:02 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: Regulární výrazy

aj v slovenčine z nie je posledné písmeno abecedy :-)

"správne" by malo byť [a-ž] :-D

23.1.2008 11:33 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

Len taka drobnost: [a-zA-Z] != [:alpha:]

Já jsem někde napsal, že je to totéž?

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

23.1.2008 12:16 miso | skóre: 36 | blog: iSCSI_initiator_howto | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

Nie, moj prispevok je spomienka na jednu bugu ;-)

Project Satan infects Calculon with Werecar virus

Složitější? Ja bych to napsal, tak že ty Perlové uměly vždycky nejvíce a byly nejrychlejší.

Jinak jak budou regulární výraze resp. gramatiky vypadat v Perlu 6 najdete v Synopses 5. Bude to zase o kousek dál.

Např. samotná gramatika Perlu 6, resp. základ parseru v implementaci Rakudo (implementace Perlu 6 pro virtuální stroj Parrot), na které se začalo pracovat poměrně nedávno, vypadá takto.

To k čemu by se měla každá z implementací dopracovat je v Larryho zatím nedokončeném (nefungujícím) návrhu STD gramatiky. Ale to už jsme se dostal k té nejsložitější věci co jsem kdy viděl a samozřejmě ještě nepochopil :-)

23.1.2008 14:03 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

Složitější? Ja bych to napsal, tak že ty Perlové uměly vždycky nejvíce

No právě

Dokonce si člověk může napsat vlastní RE engine.

Ale to už jsme se dostal k té nejsložitější věci co jsem kdy viděl a samozřejmě ještě nepochopil .

Ano, přesně o tom mluvím :-)

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

23.1.2008 16:36 thingie | skóre: 8
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

Regulární výrazy jako skutečné regulární výrazy, budou-li regulárními výrazy, tak přece nemůžou umět víc nebo míň, musí umět všechny stejně.

Růžové lži.

23.1.2008 17:01 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

„Regulární výrazy“ v Perlu a většině ostatních jazyků nebo knihoven nejsou klasické regulární výrazy v informatickém slova smyslu – viz například (.*)\1 (WikiWiki, MoinMoin apod.), což podle Wikipedie není ani bezkontextové, natož regulární. I v rámci třídy regulárních výrazů ale můžou být některé věci navíc – viz například pojmenované závorky (named captures) v novém pětkovém Perlu.

23.1.2008 17:09 thingie | skóre: 8
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

No, to opravdu není ani bezkontextové, no. Ale to je pak trochu zvrhlý bavit se o regulárním výrazu, když nám na to nestačí ani zásobníkovej automat. (Byť třeba tuhle speciální věc je asi snadný implementovat.)

Růžové lži.

23.1.2008 17:18 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

Jasně, ale to názvosloví už je zažité a těžko po někom chtít, aby dodržoval přesné definice z teorie automatů. Větší problémy z toho stejně nekoukají – pokud někdo automatům a gramatikám rozumí, rychle si všimne, že si ty definice tak docela neodpovídají.

23.1.2008 17:34 thingie | skóre: 8
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

No mně by hlavně nenapadlo, že na něco takovýho můžu poštvat nějaké regulární výrazy. Takže je možná hezký, že to umí víc, ale jak to mam vědět :-)

Růžové lži.

23.1.2008 17:38 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Perlové jsou především nejmocnější

To je fakt. man perlre každý den dvakrát před spaním :)

(str|pwd) # Odpovídá řetězci str nebo pwd.

nemelo by to byt radej: (str)|(pwd) ?

23.1.2008 11:36 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

Ani ne.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

23.1.2008 12:39 zoul | skóre: 43 | blog: ☂ | Boskovice
Rozbalit Rozbalit vše Re: Regulární výrazy

Viz man perlre:

The first alternative includes everything from the last pattern delimiter (“(”, “[”, or the beginning of the pattern) up to the first “|”, and the last alternative contains everything from the last “|” to the next pattern delimiter. That’s why it’s common practice to include alternatives in parentheses: to minimize confusion about where they start and end.

Velmi užitečné [[:<:]]slovo[[:>:]]. Skoro nikde to není napsané ač o regulárních výrazech už vyšlo článků ...

[spenat28][Štěpán_Mácha]

23.1.2008 21:52 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: doplnil bych do článku

Co to dělá? Není to standardní regulární výraz, jelikož poslední egrep říká Nepřípustný název třídy znaků. Perlová specialita?

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

24.1.2008 00:29 Ash | skóre: 53
Rozbalit Rozbalit vše Re: doplnil bych do článku

Hranice slov se často užijí třeba ve vim ve formě \<slovo\>.

24.1.2008 00:30 Ash | skóre: 53
Rozbalit Rozbalit vše Re: doplnil bych do článku

Neboli když hledá člověk proměnnou i, tak lépe /\<i\> než /i. Pokud tedy zrovna nepoužije * # nebo gd a podobné.

Trochu zákeřné:

bash$ sed -n -e "s/^\([A-Z]\)$/\1/p" <<<a
a

obzvlášť ve formě

bash$ sed -n -e "s/^.*\([A-Z]\).*$/\1/p" <<<Aa
a

versus

bash$ sed -r -n -e "s/^.*([[:upper:]]).*$/\1/p" <<<Aa
A

Jinak bash umí i extended regexp.


bash$ [[ a =~ ^[A-Z]$ ]] && echo matches
matches

bash$ [[ a =~ ^[[:lower:]]$ ]] && echo matches
matches

bash$ [[ a =~ ^[[:upper:]]$ ]] && echo matches

25.1.2008 19:05 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

Hmm, tak ten bash jsem si měl nejdřív zkusit, to jsem netušil...

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

Aky regexp mam pouzit v sede, ak chcem trebars v retazci retezec4214 nahradit vsetky znaky e znakom y?

$ echo "retezec4214" | sed -r 's/e/y/' nahradi len prvy vyskyt a skonci

dakujem

25.1.2008 20:14 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Regulární výrazy

(Všimni si toho g na konci.)

echo "retezec4214" | sed 's/e/y/g'

Toto není regulární výraz, mimochodem.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

25.1.2008 21:07 jakub
Rozbalit Rozbalit vše Re: Regulární výrazy

jasne, islo mi len o to g na konci...

ja myslim, ze 'e' je regularny vyraz, sice primitivny, ale je to slovo regularneho jazyka :-)

Perl	standardní
\d	[[:digit:]]
\D	[^[:digit:]]
\w	[[:alnum:]]
\W	[^[:alnum:]]
\s	[[:space:]]
\S	[^[:space:]]

Regulární výrazy

Obecné regulární výrazy

Rozšířené regulární výrazy

GNU sed

Perl