České třídění v perlu

No jestli on nebude problém spíš v tom, že sort v Perlu spoléhá na to, co mu "vrátí systémový sort". Viz následující:

mike@tinky:~$ locale
LANG=cs_CZ.UTF-8
LANGUAGE=
LC_CTYPE="cs_CZ.UTF-8"
LC_NUMERIC="cs_CZ.UTF-8"
LC_TIME="cs_CZ.UTF-8"
LC_COLLATE="cs_CZ.UTF-8"
LC_MONETARY="cs_CZ.UTF-8"
LC_MESSAGES="cs_CZ.UTF-8"
LC_PAPER="cs_CZ.UTF-8"
LC_NAME="cs_CZ.UTF-8"
LC_ADDRESS="cs_CZ.UTF-8"
LC_TELEPHONE="cs_CZ.UTF-8"
LC_MEASUREMENT="cs_CZ.UTF-8"
LC_IDENTIFICATION="cs_CZ.UTF-8"
LC_ALL=
mike@tinky:~$ cat ./foo 
A š
A v
Aaa
mike@tinky:~$ sort ./foo 
Aaa
A š
A v

Možná bych popřemýšlel o použití Cz::Sort

Je nesmírně těžké být idiotem, konkurence je obrovská...

18.10.2012 21:58 tom
Rozbalit Rozbalit vše Re: České třídění v perlu

Ono to je nejspis podle normy dobre, protoze ta pred abecedu radi jen tvrdou mezeru.

18.10.2012 22:11 myšák | skóre: 26 | blog: EmentuX | Ostrava
Rozbalit Rozbalit vše Re: České třídění v perlu

Jak je to přesně podle normy netuším :-(

Na to by musel odpovědět nějaký znalec, za kterého se rozhodně nepovažuji...

Je nesmírně těžké být idiotem, konkurence je obrovská...

18.10.2012 22:51 tom
Rozbalit Rozbalit vše Re: České třídění v perlu

Ve vycucu z ČSN 97 6030 se pise

Spojovník a nepřerušující mezera před abecedou.

vizte http://racek.vlada.cz/usneseni/usneseni_webtest.nsf/WebGovRes/0AD8FEF4CC04B7A4C12571B6006D69D0?OpenDocument

19.10.2012 12:45 myšák | skóre: 26 | blog: EmentuX | Ostrava
Rozbalit Rozbalit vše Re: České třídění v perlu

Díky za odkaz - člověk se pořád učí. Nicméně bych si v tomto případě dovolil postesknout nad jistou nelogičností, kterou v tomto pravidle vidím. Ačkoliv chápu, že v češtině máme podobných úchvatných „mozkolamů“ přehršel, tak konkrétně v tomto případě je to opravdu na mašli. Pokud odhlédneme od typografie, kde rozdíl mezi spojovníkem, nezalomitelnou mezerou a obyčejnou mezerou dává smysl, tak při řazení slov smysl poněkud postrádám. Ale jak jsem psal v předchozím příspěvku, necítím se být odborníkem na všechny kličky mého rodného jazyka a jsem rád, že intuitivně ovládám alespoň jeho základy.

Je nesmírně těžké být idiotem, konkurence je obrovská...

19.10.2012 12:47 l4m4
Rozbalit Rozbalit vše Re: České třídění v perlu

Tady ale nejde o řazení slov, slova mezery neobsahují žádné. Jde o řazení frází.

Problém je v tom, že v definici locale je pro znak "mezera" (nejen) v cs_CZ.utf8 krpa, která znepříjemňuje život nejen v Perlu, ale tak nějak napříč systémem. :-( Existuje pro to dokonce zdokumentovaná oprava:

V souboru /usr/share/i18n/locales/cs_CZ je třeba opravit řádek:
<U0020> IGNORE;IGNORE;IGNORE;<U0020> na <U0020> <U0020>;IGNORE;<U0020>;<U0020>

Vypsat z archivu všechny české definice:

$ localedef --list-archive | grep cs_CZ
cs_CZ
cs_CZ.utf8

a smazat je:

localedef --delete-from-archive cs_CZ
localedef --delete-from-archive cs_CZ.utf8

Vytvořit novou binární podobu z opravené textové definice:

localedef -i /usr/share/i18n/locales/cs_CZ -f UTF-8 /usr/lib/locale/cs_CZ
localedef -i /usr/share/i18n/locales/cs_CZ -f UTF-8 /usr/lib/locale/cs_CZ.UTF-8

V adresáři s archivem přidat binárky do archivu:

cd /usr/lib/locale/
localedef --add-to-archive cs_CZ
localedef --add-to-archive cs_CZ.UTF-8

Na konci pro jistotu zkontrolovat, že je vše OK:

$ localedef --list-archive | grep cs_CZ
cs_CZ
cs_CZ.utf8

A voilá po opravě locale:

$ cat foo 
A v
Abc
A b
A š
A č
Aaa

$ sort foo 
A b
A č
A š
A v
Aaa
Abc

Je nesmírně těžké být idiotem, konkurence je obrovská...

19.10.2012 10:45 Tomáš
Rozbalit Rozbalit vše Re: České třídění v perlu

Díky moc

A musim říct, že v glibc jsem chybu opravdu nečekal, nemělo by se to někam bugreportovat? Nebo existuje nějaký důvod proč je to takhle?

19.10.2012 12:01 tom
Rozbalit Rozbalit vše Re: České třídění v perlu

Nebo existuje nějaký důvod proč je to takhle?

http://www.abclinuxu.cz/poradna/programovani/show/367555#7

Dotaz: České třídění v perlu

Odpovědi