Ruby pro začátečníky - 6 (regulární výrazy)

Dnes si stručně ukážeme, co to jsou regulární výrazy, a jak je v Ruby použít.

Obsah

1. Stručný úvod

Jste-li uživatelem Linuxu nebo jiného systému unixového typu a nebojíte se příkazové řádky, pravděpodobně jste se už s regulárními výrazy setkali. Využívá jich napřiklad streamový editor sed, vyhledávací program grep a spousta textových editorů (vim, kate) a dalších programů (less,

awk

). Regulární výraz je jakýsi vzor, podle nějž se vyhledává řetězec v textu, obvykle za účelem provedení nějaké operace, typicky náhrady za jiný řetězec nebo extrakce určitých údajů.

Regulární výrazy jsou samy o sobě látkou dosti obsáhlou a jejich detailní výuka není účelem tohoto seriálu – od toho jsou zde povolanější, například vynikající seriál Pavla Satrapy – Regulární výrazy. Pokud jste se s nimi tedy dosud nesetkali, doporučuji po přečtení tohoto článku prostudovat výše zmíněné materiály. Ačkoli jejich zvládnutí není pro další pokračování v jazyku Ruby nezbytné, jejich ignorací se připravíte o velmi silný nástroj, a to nejen v Ruby.

Jak už jsem řekl v úvodu, regulární výraz je vlastně vzor pro vyhledávání v textu a v jazyce Ruby se uzavírá mezi dopředná lomítka /. Nejjednodušším vzorem je libovolný znak, tyto znaky pak lze zřetězit do slov:

Je třeba podotknout, že regulární výrazy jsou ve výchozím stavu case-sensitive, tedy rozlišující velikost písmen. Výrazu /ahoj/ tedy vyhovuje ahoj, zatímco Ahoj nebo AHOJ už ne.

Toto dozajista není nijak zvlášť oslňující. Pravá kouzla však přichází až s výčtem speciálních vzorů, které Ruby rozeznává:

Jakkoli to zpočátku vypadá komplikovaně, když vám přejdou do krve, stanou se regulární výrazy vítaným pomocníkem, a to zdaleka nejen v Ruby. A abychom nezůstali jen u teorie, pojďme se společně podívat na několik ukázek použití.

Řekněme, že chceme v konfiguračním souboru lokalizovat IP adresu. IPv4 se skládá ze čtyř čísel v rozsahu od 0 do 255, vzájemně oddělených tečkami (např. 192.168.1.3). Způsobů, jak napsat vyhovující vzor, je pochopitelně více, uveďme si jen pár z nich:

První případ je jednoduchý a stručný, není však dostatečně přesný, vzoru totiž vyhoví i neplatná adresa (např. 192.1689.1.3), často však postačí. Druhý příklad je už přísnější, ačkoli stále připouští neplatné adresy, kdy cifra přesahuje 255 (např. 192.999.1.3), což se dá ovšem snadno ošetřit dále v programu. Třetí příklad je přepisem druhého aby bylo vidět, že to lze i složitěji.

Povšimněte si, že před každou tečkou je zpětné lomítko. Samostatná tečka má totiž ve výrazu význam libovolného znaku. Předcházejícím zpětným lomítkem explicitně říkáme, že chceme skutečně tečku. Podobně bychom postupovali i v případě ostatních rezervovaných znaků, včetně zpětného lomítka:

Říkal jsem, že Ruby implicitně rozlišuje velikost písmen. Co když ale nevíme, jakým způsobem bude daný text zapsán (typicky přípony souborů stažených z internetu)? Představme si, že máme soubor, kde je na každém řádku uveden název souboru a my chceme vyhledat jen ty ve formátu Ogg Vorbis. Jednou z možností by bylo uvést všechny možnosti:

zápis:	význam:
`[]`	Výčet znaků, které se mohou na daném místě vyskytovat, včetně rozsahů. Např. `[a-z]` vyhovuje všem znakům malé (anglické) abecedy, `[Aa]` vyhovuje malému i velkému písmenu a.
`^`	Uvedena jako první znak výrazu zastupuje začátek řádku. Uvedena bezprostředně za otevírací hranatou závorkou výčtu plní funkci negace, např. `[^a]` vyhovuje jakémukoli znaku krom malého a.
`$`	Uveden na konci regulárního výrazu zastupuje konec řádku.
`\w`	Libovolný alfanumerický znak. Ekvivalentní zápisu `[a-zA-Z0-9]`
`\W`	Cokoli jiného než alfanumerický znak. Ekvivalentní zápisu `[^a-zA-Z0-9]`
`\s`	Tzv. bílý znak, tedy mezera, tabulátor, nový řádek,… Ekvivalentní `[ \t\n\r\f]`
`\S`	Cokoli jiného než bílý znak. Ekvivalentní `[^ \t\n\r\f]`
`\d`	Libovolná jedna cifra. Ekvivalentní `[0-9]`
`\D`	Cokoli jiného než numerický znak. Ekvivalentní `[^0-9]`
`.`	Libovolný jeden znak.
`*`	Žádný nebo libovolný počet výskytů předchozího znaku.
`+`	Jeden nebo libovolný počet výskytů předchozího znaku.
`?`	Žádný nebo jeden výskyt předchozího znaku.
`{m,n}`	Nejméně m, nejvýše n výskytů předchozího znaku.
`\|`	Slouží jako logické nebo. Např.: `/maly\|velky/` vyhovuje řetězci `maly`, ale také `velky`
`()`	Slouží k seskupování znaků, např. `/(ha)+/` vyhovuje `ha`, `haha` atd. Text vyhovující výrazu v závorkách je zároveň ukládán do paměti, viz dále.

Toto je sice v případě třípísmenné přípony ještě únosné, kdybychom ale hledali delší text, asi bychom se uzávorkovali. Ruby naštěstí umožňuje rozlišování velikosti písmen explicitně vypnout a to uvedením volby i (case insensitive), již zapisujeme za uzavírací lomítko:

2. Operátor =~

Po zvládnutí základů je na čase ukázat si, jak jich využít přímo v jazyce. Velmi často se používá operátor =~ který zjistí, zda se v řetězci vyskytuje nějaká část vyhovující vzoru. Pokud ano, vrátí číselný index prvního znaku nalezeného řetězce, v opačném případě vrátí hodnotu nil. Ukažme si to třeba na našem příkladu s ICQ emotikony:

Protože jako false je v Ruby krom false samotného vyhodnoceno už jen nil a cokoli jiného se automaticky vyhodnocuje jako true, lze operátor

=~

bez obav použít k větvení programu:

Tento příklad má jednu vadu a to tu, že dále nezkoumá uživatelský vstup. To řeší třeba následující ukázka s cyklem:

A když už jsme u těch řídících struktur, byla by škoda si neukázat, že lze regulární výrazy bez obav použít i v konstrukci case:

3. Metoda sub (sub!)

Dalším běžným úkonem bývá náhrada textu za jiný. Pro datový typ String je proto definována metoda sub, jejíž zápis je následující:

Představte si, že chcete přenést skript pro nastavení pravidel iptables ze svého laptopu s Debianem na PC se Slackware. Jenže ejhle, všude voláte iptables s absolutní cestou a ta je ve Slackware jiná. Necháme-li stranou, že by byl na takový úkon patrně vhodnější sed (nebo mít ve skriptu cestu uloženou v proměnné), mohla by část vykonávající náhradu vypadat třeba takto:

Teoreticky tedy procházíme skript, kdy každý řádek načítáme do proměnné radek a tu pak zpracováváme. Metoda sub nám nicméně obsah proměnné nemění, pozměněný řetězec předává jako návratovou hodnotu. Kdybychom chtěli záměnu aplikovat přímo na proměnnou, použijeme verzi s vykřičníkem:

4. Metoda gsub (gsub!)

Metoda sub má jen jednu „nevýhodu“ – uplatňuje se pouze na první výskyt vyhovujícího řetězce:

Jsou situace, kdy nám to nevadí nebo toho s výhodou využijeme, jindy se nám to ale nemusí vůbec hodit. Naštěstí existuje metoda gsub, která provede náhradu všech řetězců vyhovujících vzoru:

5. Pamatování si vyhovujících řetězců

V tabulce jsem se u závorek zmiňoval, že řetězec vyhovující vzoru mezi nimi je ukládán do paměti. Existují dva způsoby, jak se k nim dostat, a prvním z nich je prostřednictvím proměnné $n, kde n je číslo udávající pořadí závorek:

Druhý způsob – zápis ve tvaru \n – se používá přímo v regulárních výrazech. Dejme tomu, že máme v textovém souboru seznam jmen ve tvaru jméno příjmení, ovšem kvůli snazšímu vyhledávání bychom chtěli příjmení na prvním místě. Toho dosáhneme třeba takto:

Diskuse k tomuto článku

Chápem, že regulárne výrazy sú dôležité, ale neviem prečo treba ich základy duplikovať do každého tutoriálu o programovacích jazykoch. Nebolo by lepšie dať odkaz na (lepší) tutoriál pre regulárne výrazy a zamerať sa len na špecifické operácie konkrétneho jazyka?

Poprosím len koštruktívne komentáre, toto má byť návrh na vylepšenie, ak to nie je zrejmé.

physics.stackexchange.com -- Q&A stránky o fyzike v štýle StackOverflow.

9.8.2006 09:52 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Re: Ruby pro začátečníky - 6 (regulární výrazy)

Nebolo by lepšie dať odkaz na (lepší) tutoriál pre regulárne výrazy a zamerať sa len na špecifické operácie konkrétneho jazyka?

Mám za to, že to takhle článek udělal. Lehký úvod do problematiky, seznámení, odkaz na tutoriál a popis toho, jak výrazy používat v Ruby (zkratky, operátory atd.).

9.8.2006 20:15 Marek Bernát | skóre: 17 | blog: Arcadia
Rozbalit Rozbalit vše Re: Ruby pro začátečníky - 6 (regulární výrazy)

Ospravedlňujem sa autorovi, tú linku som prehliadol :-(

physics.stackexchange.com -- Q&A stránky o fyzike v štýle StackOverflow.

Ruby pro začátečníky - 6 (regulární výrazy)

Obsah

1. Stručný úvod

2. Operátor `=~`

3. Metoda `sub` (`sub!`)

4. Metoda `gsub` (`gsub!`)

5. Pamatování si vyhovujících řetězců

Seriál Ruby pro začátečníky (dílů: 8)

Související články

Další články z této rubriky

Diskuse k tomuto článku

Ruby pro začátečníky - 6 (regulární výrazy)

Obsah

1. Stručný úvod

2. Operátor =~

3. Metoda sub (sub!)

4. Metoda gsub (gsub!)

5. Pamatování si vyhovujících řetězců

Seriál Ruby pro začátečníky (dílů: 8)

Související články

Další články z této rubriky

Diskuse k tomuto článku

2. Operátor `=~`

3. Metoda `sub` (`sub!`)

4. Metoda `gsub` (`gsub!`)