abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
dnes 12:00 | Zajímavý projekt

Projekt Termbox umožňuje vyzkoušet si linuxové distribuce Ubuntu, Debian, Fedora, CentOS a Arch Linux ve webovém prohlížeči. Řešení je postaveno na projektu HyperContainer. Podrobnosti v často kladených dotazech (FAQ). Zdrojové kódy jsou k dispozici na GitHubu [reddit].

Ladislav Hagara | Komentářů: 5
dnes 11:00 | Bezpečnostní upozornění

Byly zveřejněny informace o bezpečnostní chybě CVE-2016-8655 v Linuxu zneužitelné k lokální eskalaci práv. Chyba se dostala do linuxového jádra v srpnu 2011. V upstreamu byla opravena minulý týden [Hacker News].

Ladislav Hagara | Komentářů: 0
včera 22:00 | Komunita

Přibližně před měsícem bylo oznámeno, že linuxová distribuce SUSE Linux Enterprise Server (SLES) běží nově také Raspberry Pi 3 (dokumentace). Obraz verze 12 SP2 pro Raspberry Pi 3 je ke stažení zdarma. Pro registrované jsou po dobu jednoho roku zdarma také aktualizace. Dnes bylo oznámeno, že pro Raspberry Pi 3 je k dispozici také nové openSUSE Leap 42.2 (zprávička). K dispozici je hned několik obrazů.

Ladislav Hagara | Komentářů: 5
včera 06:00 | Zajímavý software

OMG! Ubuntu! představuje emulátor terminálu Hyper (GitHub) postavený na webových technologiích (HTML, CSS a JavaScript). V diskusi k článku je zmíněn podobný emulátor terminálu Black Screen. Hyper i Black Screen používají framework Electron, stejně jako editor Atom nebo vývojové prostředí Visual Studio Code.

Ladislav Hagara | Komentářů: 33
včera 06:00 | Zajímavý článek

I letos vychází řada ajťáckých adventních kalendářů. QEMU Advent Calendar 2016 přináší každý den nový obraz disku pro QEMU. Programátoři se mohou potrápit při řešení úloh z kalendáře Advent of Code 2016. Kalendáře Perl Advent Calendar 2016 a Perl 6 Advent Calendar přinášejí každý den zajímavé informace o programovacím jazyce Perl. Stranou nezůstává ani programovací jazyk Go.

Ladislav Hagara | Komentářů: 9
3.12. 16:24 | Nová verze

Byla vydána Mageia 5.1. Jedná se o první opravné vydání verze 5, jež vyšla v červnu loňského roku (zprávička). Uživatelům verze 5 nepřináší opravné vydání nic nového, samozřejmě pokud pravidelně aktualizují. Vydání obsahuje všechny aktualizace za posledního téměř půldruhého roku. Mageia 5.1 obsahuje LibreOffice 4.4.7, Linux 4.4.32, KDE4 4.14.5 nebo GNOME 3.14.3.

Ladislav Hagara | Komentářů: 17
3.12. 13:42 | Pozvánky

V Praze probíhá konference Internet a Technologie 16.2, volné pokračování jarní konference sdružení CZ.NIC. Konferenci lze sledovat online na YouTube. K dispozici je také archiv předchozích konferencí.

Ladislav Hagara | Komentářů: 0
2.12. 22:44 | Komunita

Joinup informuje, že Mnichov používá open source groupware Kolab. V srpnu byl dokončen dvouletý přechod na toto řešení. V provozu je asi 60 000 poštovních schránek. Nejenom Kolabu se věnoval Georg Greve ve své přednášce Open Source: the future for the European institutions (SlideShare) na konferenci DIGITEC 2016, jež proběhla v úterý 29. listopadu v Bruselu. Videozáznam přednášek z hlavního sálu je ke zhlédnutí na Livestreamu.

Ladislav Hagara | Komentářů: 25
2.12. 15:30 | Zajímavý projekt

Společnost Jolla oznámila v příspěvku Case study: Sailfish Watch na svém blogu, že naportovala Sailfish OS na chytré hodinky. Využila a inspirovala se otevřeným operačním systémem pro chytré hodinky AsteroidOS. Použita je knihovna libhybris. Ukázka ovládání hodinek na YouTube.

Ladislav Hagara | Komentářů: 18
2.12. 14:15 | Nová verze

Byla vydána verze 7.1.0 skriptovacího jazyka PHP používaného zejména k vývoji dynamických webových stránek. Jedná se o první stabilní verzi nejnovější větvě 7.1. Přehled novinek v dokumentaci. Podrobnosti v ChangeLogu. K dispozici je také příručka pro přechod z PHP 7.0.x na PHP 7.1.x.

Ladislav Hagara | Komentářů: 6
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 774 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: PHP: Regulární výraz a diakritika v UTF-8

9.6.2009 15:44 N0rT0n | skóre: 9 | blog: Lama | Brno
PHP: Regulární výraz a diakritika v UTF-8
Přečteno: 3828×

Zdravím,

řešil už někdo prapodivné chování PHP funkce mb_ereg() ?

regulární výraz

mb_ereg("^[a-zA-Z]*$","příšera")

se vyhodnotí negativně, zatímco regulární výraz

mb_ereg("^[a-zA-Z]*","příšera")

se vyhodnotí pozitivně (odstraněn znak pro konec řetězce).

Výraz:

mb_ereg("^[a-zA-Z]*$","prisera")

se vyhodnoti pozitivně.

 

Narazil jsem na tento problém při sestavování podstatně složitějšího výrazu, který u slov bez diakritiky fungoval naprosto bez problému. Problém je v tom, že ve výrazu nutně potřebuji omezit chování konec řetězce. Všechny patterny obsahující znak $ (pro konec řetězce) se vyhodnocují automaticky negativně.

Vstupem i výstupem je kódování UTF-8. mb_internal_encoding() hlasi UTF-8, mb_regex_encoding() taktéž. Tím, že řetězce na vstupu jsou v UTF-8, jsem si naprosto jist. Verze PHP je 5.2.6.

 

Má někdo nějaký nápad, či případně toto nějak řešil?

Odpovědi

9.6.2009 16:01 Blondak
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

mb_ereg("^[a-zA-Z]*","příšera")
se vyhodnocuje správně pozitivně, protože souhlasí "p" na začátku, pokud budeš dělat
mb_ereg("^[a-zA-Z]*","činka")
tak to už vyhodnotí negativně, možná bych zkusil
preg_match("/^[\S]*$/u","příšera")
, ale nevím co přesně máš na vstupech.

9.6.2009 17:41 Ash | skóre: 53
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8
se nevyhodnocuje správně pozitivně proto, že souhlasí "p" na začátku, ale proto, že výrazu ^[a-zA-Z]* vyhovuje jakýkoliv řetězec, který má začátek (to má každý) a pak náseduje 0 až N výskytů a-zA-Z. Takže by vyhovovala i šíšera.
10.6.2009 04:01 zha
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8
Takže by vyhovovala i šíšera.

Měla by, ale proč neprojde ta činka?
10.6.2009 07:39 Ash | skóre: 53
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8
činka projde
10.6.2009 10:56 Blondak
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

jj, pravda nějak jsem si spletl * a +

Tarmaq avatar 9.6.2009 16:31 Tarmaq | skóre: 39
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8
je to jak kolega pise v tom, ze v prvnim pripade se ten regular vyhodnoti jen na p
nevim jestli je to uplne koser reseni, ale slo by to asi udelat nejak takto:
setlocale(LC_CTYPE, 'cs_CZ.utf8');
$foo = iconv('utf-8', 'ascii//TRANSLIT', "příšera");

# mb_ereg se vyhodnoti pozitivne
mb_ereg("^[a-zA-Z]*$", $foo);

# jinak lze pouzit i tento tvar
mb_ereg("^[[:alpha:]]*$", $foo);
Don't panic!
9.6.2009 17:24 Sinuhet | skóre: 31
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8
preg_match("/^\p{L}*$/", "příšera");
9.6.2009 17:40 N0rT0n | skóre: 9 | blog: Lama | Brno
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

Díky za reakce,

ten nápad s iconv mě taky napadl. Leč jsem si stále myslel, že mě napadne něco elegantního. V tom skriptu se jedná o ošetření vkládání klíčových slov. Pravidla jsou taková, že mohou začínat libovolným písmenem, mohou obsahovat číslici, od sebe jsou odděleny čárkou (či případně čárkou a mezerou) a musí končit slovem. Žádné jiné znaky nejsou povoleny, takže nelze použít třídu [[:alpha:]]. Vše až na to ošetření konce slova jsem už zvládl.

Správně by se měl vyhodnotit tento řetězec (i s vloženou frází "sportovní náčiní"):

činka, sportovní náčiní, číslo21, google

chybně by se měl vyhodnotit řetězec obsahující například:

činka, sportovní náčiní, 21. století, google,

(slovo nesmí začínat číslicí, tečka není přípustná a řetězec nesmí končit žádným jiným znakem, než [a-zA-Z0-9]). Něco jako

^[a-zA-Z0-9]*(,| )*[a-zA-Z0-9]*$
9.6.2009 19:16 N0rT0n | skóre: 9 | blog: Lama | Brno
Rozbalit Rozbalit vše Re: PHP: Regulární výraz a diakritika v UTF-8

Moc elegantní to není, ale snad by to mohlo pomoci někomu, kdo podobný problém řeší:

$foo = iconv('utf-8', 'ASCII//IGNORE', $text);
if(ereg('^([a-zA-Z]{1,}[0-9]*(,| ){0,1})*[a-zA-Z]{1,}[0-9]*$',$foo)) {

  $result=1;

} else { $result=0; }

/*

1) do proměnné $foo se překóduje text z proměnné $text, která je kódována v UTF-8, proměnná $foo je nyní reprezentována v kódování ASCII s tím, že znaky, které nemohly být zkonvertovány do ASCII "tiše" zmizí (zajišťuje příznak //IGNORE)

2) klíčová slova musí začínat písmenem a případně končit číslicí, mezi slovy je přípustná čárka (oddělovač klíčových slov) nebo mezera (oddělovač slov v slovní frázi). Celý regulární výraz musí končit slovem (případně slovem s číslicí na konci).

*/

 Vypadá to, že to funguje, že jsem neudělal chybu (po 11 hodinách v práci by mě to ani nepřekvapilo).

 

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.