Portál AbcLinuxu, 23. dubna 2024 15:33


Dotaz: Blbne čeština (utf8) v perlu a v C

⧠ A = 0 avatar 7.10.2007 18:26 ⧠ A = 0 | skóre: 10 | blog: Technokratovo_zrcadlo | Helsinki
Blbne čeština (utf8) v perlu a v C
Přečteno: 711×
Odpovědět | Admin
Zdravím. Mám debian s cs_CZ.utf8 a potřeboval bych nějakým způsobem přečíst jednotlivý znak (i český) a nějak ho zpracovat. Nejprve jsem si hrál v C, s pomocí wcharů, ale getwchar() mi začne vracet WEOF, jakmile narazí na český non-ascii znak.

Pak jsem zkoušel něco napsat v perlu. A třeba na následující jednoduché utilitce na počítání četnosti znaků jsem si vylámal zuby:

use locale;
$_ = <STDIN>;
%znaky = ();
while ( /(\S)/) {
if (exists($znaky{$&})) {
$znaky{$&} += 1;
}
else {
$znaky{$&} = 1;
}
$_ = $';
}

foreach $c (keys(%znaky))
{
print "$c $znaky{$c}\n"
}

Tady mi to pro změnu české non-ascii znaky půlí na nějaké dva nečitelné znaky. Např. pro vstup "ščdfs" dostanu tohle:

� 1
� 1
d 1
� 1
s 1
f 1
� 1

Naveďte mě, co dělám špatně, prosím.

Nevolte zmrdy.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

7.10.2007 18:37 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
Odpovědět | | Sbalit | Link | Blokovat | Admin
perl-u treba o utf8 povedať. Štandardne sa tvári, ako keby nič také neexistovalo.
use utf8;

binmode (STDIN, 'utf8');
binmode (STDOUT, 'utf8');
7.10.2007 23:27 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
use utf8; pouze říká, že od teď je zdroják v UTF-8.

Co se týče binmode(STDIN, ':utf8'), tak záleží na verzi (a distribuci). Jsou takové, kde jedině binmode zajistí korektní I/O, jsou takové, kde to funguje podle locale, ale padají varování, a jsou takové, kde to funguje „samo od sebe“.
8.10.2007 09:30 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
utf8 obsahuje zopár užitočných funkcií ..

čo sa týka samotného perlu, ten, ak mu inak nik nepovie, utf8 nepozná. Povedať sa mu to (o STDIN/OUT/ERROR) dá napr. perl -C L (podľa locale), perl -IOEioA (natvrdo, aj @ARGV v utf8)

7.10.2007 18:38 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
Odpovědět | | Sbalit | Link | Blokovat | Admin
Ty dva nečitelné znaky je bajtová reprezentace těch českých znaků. Tj. Perl ten vstup zpracovává po bajtech – buď neumí UTF-8, nebo neví, že vstup je v UTF-8. Máte locale nastaveno na cs_CZ.UTF-8?
⧠ A = 0 avatar 7.10.2007 19:12 ⧠ A = 0 | skóre: 10 | blog: Technokratovo_zrcadlo | Helsinki
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
To je mi celkem jasné. Locale samozřejmě nastavené mám. Pomohlo to binmode. Ještě by mě zajímalo, jak je to s tím Cčkem.
Nevolte zmrdy.
8.10.2007 01:10 megi | skóre: 11 | blog:
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
Na C potrebujes nejakou knihovnu. Ja pouzivanm glib2, pze je vsude.

http://library.gnome.org/devel/glib/stable/glib-Unicode-Manipulation.html
⧠ A = 0 avatar 11.10.2007 16:41 ⧠ A = 0 | skóre: 10 | blog: Technokratovo_zrcadlo | Helsinki
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
A to tedy podle Vás standardní C99 s wchary a locale vůbec neumí utf8?
Nevolte zmrdy.
8.10.2007 13:20 vencas | skóre: 32
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
Pardon jestli jem mimo co se týče Perlu, ale v Pythonu je třeba explicitně říci, že má používat systémové locale voláním
import locale; locale.setlocale(locale.LC_ALL, '')
. Není to v Perlu podobně?
8.10.2007 14:41 happy barney | skóre: 34 | blog: dont_worry_be_happy
Rozbalit Rozbalit vše Re: Blbne čeština (utf8) v perlu a v C
nie, pragma use locale to robí automaticky. setlocale je treba len vtedy, ak chce program iné

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.