Přihlášení | Registrace

napište » Zprávičky

dnes 17:11 | Nová verze

Byl vydán Nextcloud Hub 8. Představení novinek tohoto open source cloudového řešení také na YouTube. Vypíchnout lze Nextcloud AI Assistant 2.0.

Ladislav Hagara | Komentářů: 0

Pharo 12.0

dnes 13:33 | Nová verze

Vyšlo Pharo 12.0, programovací jazyk a vývojové prostředí s řadou pokročilých vlastností. Krom tradiční nadílky oprav přináší nový systém správy ladících bodů, nový způsob definice tříd, prostor pro objekty, které nemusí procházet GC a mnoho dalšího.

Pavel Křivánek | Komentářů: 2

Microsoft zveřejnil na GitHubu zdrojové kódy MS-DOSu 4.0 pod licencí MIT

dnes 04:55 | Zajímavý software

Microsoft zveřejnil na GitHubu zdrojové kódy MS-DOSu 4.0 pod licencí MIT. Ve stejném repozitáři se nacházejí i před lety zveřejněné zdrojové k kódy MS-DOSu 1.25 a 2.0.

Ladislav Hagara | Komentářů: 28

Ubuntu 24.04 LTS Noble Numbat

včera 17:33 | Nová verze

Canonical vydal (email, blog, YouTube) Ubuntu 24.04 LTS Noble Numbat. Přehled novinek v poznámkách k vydání a také příspěvcích na blogu: novinky v desktopu a novinky v bezpečnosti. Vydány byly také oficiální deriváty Edubuntu, Kubuntu, Lubuntu, Ubuntu Budgie, Ubuntu Cinnamon, Ubuntu Kylin, Ubuntu MATE, Ubuntu Studio, Ubuntu Unity a Xubuntu. Jedná se o 10. LTS verzi.

Ladislav Hagara | Komentářů: 13

Videozáznam z Czech Open Source Policy Forum 2024

včera 14:22 | Komunita

Na YouTube je k dispozici videozáznam z včerejšího Czech Open Source Policy Forum 2024.

Ladislav Hagara | Komentářů: 2

Fossil 2.24

včera 13:22 | Nová verze

Fossil (Wikipedie) byl vydán ve verzi 2.24. Jedná se o distribuovaný systém správy verzí propojený se správou chyb, wiki stránek a blogů s integrovaným webovým rozhraním. Vše běží z jednoho jediného spustitelného souboru a uloženo je v SQLite databázi.

Ladislav Hagara | Komentářů: 0

Vivaldi 6.7

včera 12:44 | Nová verze

Byla vydána nová stabilní verze 6.7 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 124. Přehled novinek i s náhledy v příspěvku na blogu. Vypíchnout lze Spořič paměti (Memory Saver) automaticky hibernující karty, které nebyly nějakou dobu používány nebo vylepšené Odběry (Feed Reader).

Ladislav Hagara | Komentářů: 0

Node.js 22

včera 04:55 | Nová verze

OpenJS Foundation, oficiální projekt konsorcia Linux Foundation, oznámila vydání verze 22 otevřeného multiplatformního prostředí pro vývoj a běh síťových aplikací napsaných v JavaScriptu Node.js (Wikipedie). V říjnu se verze 22 stane novou aktivní LTS verzí. Podpora je plánována do dubna 2027.

Ladislav Hagara | Komentářů: 0

Proxmox Virtual Environment 8.2

včera 04:22 | Nová verze

Byla vydána verze 8.2 open source virtualizační platformy Proxmox VE (Proxmox Virtual Environment, Wikipedie) založené na Debianu. Přehled novinek v poznámkách k vydání a v informačním videu. Zdůrazněn je průvodce migrací hostů z VMware ESXi do Proxmoxu.

Ladislav Hagara | Komentářů: 0

R 4.4.0 (Puppy Cup)

včera 04:11 | Nová verze

R (Wikipedie), programovací jazyk a prostředí určené pro statistickou analýzu dat a jejich grafické zobrazení, bylo vydáno ve verzi 4.4.0. Její kódové jméno je Puppy Cup.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

KDE Plasma 6

už používám (73%)

čekám, až se dostane do mé distibuce (9%)

čekám na pozdější vydání v řadě (2%)

preferuji jiné desktopové prostředí (16%)

Celkem 795 hlasů

Komentářů: 4, poslední 6.4. 15:51

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / PHP: Regulární výraz a diakritika v UTF-8

Štítky: diakritika, kódování, PHP, problém, programování

Dotaz: PHP: Regulární výraz a diakritika v UTF-8

9.6.2009 15:44 N0rT0n | skóre: 9 | blog: Lama | Brno
PHP: Regulární výraz a diakritika v UTF-8

Přečteno: 4983×

Odpovědět | Admin

Zdravím,

řešil už někdo prapodivné chování PHP funkce mb_ereg() ?

regulární výraz

mb_ereg("^[a-zA-Z]*$","příšera")

se vyhodnotí negativně, zatímco regulární výraz

mb_ereg("^[a-zA-Z]*","příšera")

se vyhodnotí pozitivně (odstraněn znak pro konec řetězce).

Výraz:

mb_ereg("^[a-zA-Z]*$","prisera")

se vyhodnoti pozitivně.

Narazil jsem na tento problém při sestavování podstatně složitějšího výrazu, který u slov bez diakritiky fungoval naprosto bez problému. Problém je v tom, že ve výrazu nutně potřebuji omezit chování konec řetězce. Všechny patterny obsahující znak $ (pro konec řetězce) se vyhodnocují automaticky negativně.

Vstupem i výstupem je kódování UTF-8. mb_internal_encoding() hlasi UTF-8, mb_regex_encoding() taktéž. Tím, že řetězce na vstupu jsou v UTF-8, jsem si naprosto jist. Verze PHP je 5.2.6.

Má někdo nějaký nápad, či případně toto nějak řešil?

Nástroje: Začni sledovat (1) ?

Odpovědi

9.6.2009 16:01 Blondak
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

mb_ereg("^[a-zA-Z]*","příšera")

se vyhodnocuje správně pozitivně, protože souhlasí "p" na začátku, pokud budeš dělat

mb_ereg("^[a-zA-Z]*","činka")

tak to už vyhodnotí negativně, možná bych zkusil

preg_match("/^[\S]*$/u","příšera")

, ale nevím co přesně máš na vstupech.

9.6.2009 17:41 Ash | skóre: 53
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

se nevyhodnocuje správně pozitivně proto, že souhlasí "p" na začátku, ale proto, že výrazu ^[a-zA-Z]* vyhovuje jakýkoliv řetězec, který má začátek (to má každý) a pak náseduje 0 až N výskytů a-zA-Z. Takže by vyhovovala i šíšera.

10.6.2009 04:01 zha
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

Takže by vyhovovala i šíšera.

Měla by, ale proč neprojde ta činka?

10.6.2009 07:39 Ash | skóre: 53
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

činka projde

10.6.2009 10:56 Blondak
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

jj, pravda nějak jsem si spletl * a +

9.6.2009 16:31 Tarmaq | skóre: 39
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

je to jak kolega pise v tom, ze v prvnim pripade se ten regular vyhodnoti jen na p
nevim jestli je to uplne koser reseni, ale slo by to asi udelat nejak takto:

setlocale(LC_CTYPE, 'cs_CZ.utf8');
$foo = iconv('utf-8', 'ascii//TRANSLIT', "příšera");

# mb_ereg se vyhodnoti pozitivne
mb_ereg("^[a-zA-Z]*$", $foo);

# jinak lze pouzit i tento tvar
mb_ereg("^[[:alpha:]]*$", $foo);

Don't panic!

9.6.2009 17:24 Sinuhet | skóre: 31
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

preg_match("/^\p{L}*$/", "příšera");

9.6.2009 17:40 N0rT0n | skóre: 9 | blog: Lama | Brno
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

Díky za reakce,

ten nápad s iconv mě taky napadl. Leč jsem si stále myslel, že mě napadne něco elegantního. V tom skriptu se jedná o ošetření vkládání klíčových slov. Pravidla jsou taková, že mohou začínat libovolným písmenem, mohou obsahovat číslici, od sebe jsou odděleny čárkou (či případně čárkou a mezerou) a musí končit slovem. Žádné jiné znaky nejsou povoleny, takže nelze použít třídu [[:alpha:]]. Vše až na to ošetření konce slova jsem už zvládl.

Správně by se měl vyhodnotit tento řetězec (i s vloženou frází "sportovní náčiní"):

činka, sportovní náčiní, číslo21, google

chybně by se měl vyhodnotit řetězec obsahující například:

činka, sportovní náčiní, 21. století, google,

(slovo nesmí začínat číslicí, tečka není přípustná a řetězec nesmí končit žádným jiným znakem, než [a-zA-Z0-9]). Něco jako

^[a-zA-Z0-9]*(,| )*[a-zA-Z0-9]*$

9.6.2009 19:16 N0rT0n | skóre: 9 | blog: Lama | Brno
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

Moc elegantní to není, ale snad by to mohlo pomoci někomu, kdo podobný problém řeší:

$foo = iconv('utf-8', 'ASCII//IGNORE', $text); if(ereg('^([a-zA-Z]{1,}[0-9]*(,| ){0,1})*[a-zA-Z]{1,}[0-9]*$',$foo)) {

$result=1;

} else { $result=0; }

/*

1) do proměnné $foo se překóduje text z proměnné $text, která je kódována v UTF-8, proměnná $foo je nyní reprezentována v kódování ASCII s tím, že znaky, které nemohly být zkonvertovány do ASCII "tiše" zmizí (zajišťuje příznak //IGNORE)

2) klíčová slova musí začínat písmenem a případně končit číslicí, mezi slovy je přípustná čárka (oddělovač klíčových slov) nebo mezera (oddělovač slov v slovní frázi). Celý regulární výraz musí končit slovem (případně slovem s číslicí na konci).

*/

Vypadá to, že to funguje, že jsem neudělal chybu (po 11 hodinách v práci by mě to ani nepřekvapilo).

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje