abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 02:20 | Zajímavý článek

David Revoy, autor open source webového komiksu Pepper&Carrot nebo portrétu GNU/Linuxu, upozorňuje na svém blogu, že nový Inkscape 0.92 rozbíjí dokumenty vytvořené v předchozích verzích Inkscape. Problém by měl být vyřešen v Inkscape 0.92.2 [reddit].

Ladislav Hagara | Komentářů: 0
včera 02:02 | Komunita

Øyvind Kolås, hlavní vývojář grafických knihoven GEGL a babl, které využívá grafický program GIMP, žádá o podporu na Patreonu. Díky ní bude moci pracovat na vývoji na plný úvazek. Milník 1000 $, který by stačil na holé přežití, se již téměř podařilo vybrat, dalším cílem je dosažení 2500 $, které mu umožní běžně fungovat ve společnosti.

xkomczax | Komentářů: 12
21.1. 23:54 | Pozvánky

DevConf.cz 2017, již devátý ročník jedné z největších akcí zaměřených na Linux a open source ve střední Evropě, proběhne od pátku 27. ledna do neděle 29. ledna v prostorách Fakulty informačních technologií Vysokého učení technického v Brně. Na programu je celá řada zajímavých přednášek a workshopů. Letos je povinná registrace.

Ladislav Hagara | Komentářů: 0
21.1. 22:11 | Nová verze

Byla vydána verze 1.0.0 emulátoru terminálu Terminology postaveného nad EFL (Enlightenment Foundation Libraries). Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
20.1. 17:00 | Nová verze

Byl vydán Docker 1.13. Přehled novinek na YouTube a v poznámkách k vydání na GitHubu. Docker umožňuje běh aplikací v softwarových kontejnerech (Wikipedia).

Ladislav Hagara | Komentářů: 4
20.1. 15:51 | Komunita

Mozilla.cz informuje, že nástroje pro webové vývojáře se možná oddělí od Firefoxu a stanou doplňkem. Nástroje pro webové vývojáře prošly velkým přepisem a tým, který se stará o jejich vývoj, by uvítal možnost jejich častějších aktualizacích nezávisle na vydávání nových verzí Firefoxu.

Ladislav Hagara | Komentářů: 10
20.1. 07:00 | Humor

Čtenářům AbcLinuxu vše nejlepší k dnešnímu Dni zvýšení povědomí o tučňácích (Penguin Awareness Day).

Ladislav Hagara | Komentářů: 0
20.1. 06:00 | Komunita

Bylo spuštěno hlasování o přednáškách a workshopech pro letošní InstallFest, jenž proběhne o víkendu 4. a 5. března v Praze. Současně byla oznámena změna místa. InstallFest se letos vrací zpět na Karlovo náměstí do budovy E.

Ladislav Hagara | Komentářů: 0
20.1. 02:48 | Komunita

Greg Kroah-Hartman potvrdil, že Linux 4.9 je jádrem s prodlouženou upstream podporou (LTS, Long Term Support). Podpora je plánována do ledna 2019. Aktuální jádra s prodlouženou podporou jsou tedy 3.2, 3.4, 3.10, 3.12, 3.16, 3.18, 4.1, 4.4 a 4.9.

Ladislav Hagara | Komentářů: 0
20.1. 00:11 | Zajímavý článek

Výrobce síťových prvků, společnost Netgear, spustila nový program, který slibuje vývojářům, expertům, ale i běžným uživatelům vyplacení finanční odměny za nalezení bezpečnostních chyby v jejich produktech. Za nalezení zranitelnosti v hardware, API nebo mobilní aplikaci nabízí odměnu od 150 do 15 tisíc dolarů (dle závažnosti).

Michal Makovec | Komentářů: 0
Jak se stavíte k trendu ztenčování přenosných zařízení (smartphony, notebooky)?
 (10%)
 (2%)
 (74%)
 (3%)
 (10%)
Celkem 363 hlasů
 Komentářů: 25, poslední 21.1. 13:34
Rozcestník
Reklama

Dotaz: Počítání českých znaků v Reg Exp

8.9.2011 11:18 Hufy
Počítání českých znaků v Reg Exp
Přečteno: 330×
Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky


Řešení dotazu:


Odpovědi

8.9.2011 13:31 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.
8.9.2011 18:15 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Sorry, asi nerozumím... Mám vypsat délku načteného řádku?
8.9.2011 18:19 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.
8.9.2011 18:53 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Mám tu

while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
print "$1 ".length($1)."\n"; # pisu levou a delku
next;
}

a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.
8.9.2011 13:34 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".
8.9.2011 18:20 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.
8.9.2011 15:12 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Dela se to pomoci binmode, takze jak jste to zkousel?
binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print

while (<>) {
  print join ":", /^(.{66})(.*)$/;
}
8.9.2011 15:13 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.
8.9.2011 15:19 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".
8.9.2011 18:59 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

#!/usr/bin/perl
use encoding ':utf-8';
binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte
binmode *STDOUT, ":utf8";

my @radky;
while (<>) {
/^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
push @radky, $2."\n"; # pravou pulku schovam
print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku
next;
}

print @radky; # dotisknu pravy sloupec pod levy
# jenze zacatky radku jsou rozhazene

8.9.2011 19:09 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Přílohy:
Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.
Řešení 2× (Vojtěch Horký, Hufy (tazatel))
8.9.2011 20:16 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

Místo
binmode STDOUT, ":utf-8";
použijte
use open qw(:std :utf8);
8.9.2011 20:45 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-) Díky moc všem za rady.
8.9.2011 19:24 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:
$ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
oučký kůň
8.9.2011 19:48 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.
8.9.2011 19:54 jurasek
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Zdar
Kodovani souboru overis prikazem file. file HH.txt
Zdar
8.9.2011 20:42 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Ano, je to utf-8, dík

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.