Portál AbcLinuxu, 19. července 2025 06:49


Dotaz: Počítání českých znaků v Reg Exp

8.9.2011 11:18 Hufy
Počítání českých znaků v Reg Exp
Přečteno: 378×
Odpovědět | Admin
Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky


Řešení dotazu:


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

8.9.2011 13:31 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Odpovědět | | Sbalit | Link | Blokovat | Admin
Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.
8.9.2011 18:15 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Sorry, asi nerozumím... Mám vypsat délku načteného řádku?
8.9.2011 18:19 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.
8.9.2011 18:53 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Mám tu

while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
print "$1 ".length($1)."\n"; # pisu levou a delku
next;
}

a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.
8.9.2011 13:34 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Odpovědět | | Sbalit | Link | Blokovat | Admin
Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".
8.9.2011 18:20 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.
8.9.2011 15:12 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Odpovědět | | Sbalit | Link | Blokovat | Admin
Dela se to pomoci binmode, takze jak jste to zkousel?
binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print

while (<>) {
  print join ":", /^(.{66})(.*)$/;
}
8.9.2011 15:13 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.
8.9.2011 15:19 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".
8.9.2011 18:59 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

#!/usr/bin/perl
use encoding ':utf-8';
binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte
binmode *STDOUT, ":utf8";

my @radky;
while (<>) {
/^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
push @radky, $2."\n"; # pravou pulku schovam
print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku
next;
}

print @radky; # dotisknu pravy sloupec pod levy
# jenze zacatky radku jsou rozhazene

8.9.2011 19:09 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Přílohy:
Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.
Řešení 2× (Vojtěch Horký, Hufy (tazatel))
8.9.2011 20:16 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

Místo
binmode STDOUT, ":utf-8";
použijte
use open qw(:std :utf8);
8.9.2011 20:45 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-) Díky moc všem za rady.
8.9.2011 19:24 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:
$ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
oučký kůň
8.9.2011 19:48 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.
8.9.2011 19:54 jurasek
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Zdar
Kodovani souboru overis prikazem file. file HH.txt
Zdar
8.9.2011 20:42 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Ano, je to utf-8, dík

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.