Počítání českých znaků v Reg Exp (vyřešeno)

Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.

8.9.2011 18:15 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Sorry, asi nerozumím... Mám vypsat délku načteného řádku?

8.9.2011 18:19 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.

8.9.2011 18:53 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Mám tu

while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce print "$1 ".length($1)."\n"; # pisu levou a delku next; }

a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.

Dela se to pomoci binmode, takze jak jste to zkousel?

binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print

while (<>) {
  print join ":", /^(.{66})(.*)$/;
}

8.9.2011 15:13 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.

8.9.2011 15:19 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".

8.9.2011 18:59 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

#!/usr/bin/perl use encoding ':utf-8'; binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte binmode *STDOUT, ":utf8"; my @radky; while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce push @radky, $2."\n"; # pravou pulku schovam print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku next; } print @radky; # dotisknu pravy sloupec pod levy # jenze zacatky radku jsou rozhazene

8.9.2011 19:09 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Přílohy:

HH.txt (7575 bytů)
bbb.txt (7843 bytů)

Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.

Řešení 2× (Vojtěch Horký, Hufy (tazatel))

8.9.2011 20:16 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

Místo

binmode STDOUT, ":utf-8";

použijte

use open qw(:std :utf8);

8.9.2011 20:45 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-)

Díky moc všem za rady.

8.9.2011 19:24 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:

$ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
oučký kůň

8.9.2011 19:48 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.

8.9.2011 19:54 jurasek
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Zdar
Kodovani souboru overis prikazem file. file HH.txt
Zdar

8.9.2011 20:42 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Ano, je to utf-8, dík

Dotaz: Počítání českých znaků v Reg Exp

Odpovědi