Ako sa zbavit diakritiky

Zdravim. Mam textovy subor (konfigurak k Postfixu), ktory obsahuje komentare s diakritikou, ktorej sa chcem zbavit. Ako "pretransformujem" pismena "ľ š ý á ..." na "l s y a ..."?

file mi hodil: UTF-8 Unicode English text.

Vdaka.

Odpovědi

Moznosti je spousta, jde to treba takto:
cat soubor1 | \ tr áéěíóúůýžščřďťňľ aeeiouuyzscrdtnl > \ soubor2
Pokud chybi nejaka, treba velka pismena, staci doplnit.

Nebo zkuste: skript cnv pro SED od L. Škarvady. Pro ziskani informaci o pouziti staci spustit:
# ./cnv
jen tak na prazdno bez parametru.

mood = (machine != slackware) ? depressed : euphoria;

23.4.2006 09:32 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Ako sa zbavit diakritiky

Moznosti je spousta, jde to treba takto:
cat soubor1 | tr áéěíóúůýžščřďťňľ aeeiouuyzscrdtnl > soubor2

Tohle jede i v utf8? Máš na to nějaký patch pro tr, po kterém to nahrazuje ne po osmibitových skupinách, ale po písmenech podle locale?

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

23.4.2006 10:19 slackman | skóre: 13 | Praha
Rozbalit Rozbalit vše Re: Ako sa zbavit diakritiky

No jo, nejak jsem prehlidnul ze se tady mluvi o utf8. Moc se omlouvam. Vtom pripadu asi nebude fungovat ani ta legracka cnv.

mood = (machine != slackware) ? depressed : euphoria;

Odstranit diakritiku z UTF-8 není nic jednoduchého, protože substituce není vždy jednoznačná. Ale pro české znaky funguje toto:

$ cat abeceda_cz
áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ
$ recode --force utf8..flat abeceda_cz
$ cat abeceda_cz
aAcCdDeEeEiInNoOrRsStTuUuUyYzZ

Musí se dát parametr --force, protože jde o nevratné překódování.

29.8.2006 10:29 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Ako sa zbavit diakritiky

Dalo by se to taky takhle:

#!/usr/bin/env python

import unicodedata

old = u'ahojáÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ'
norm = unicodedata.normalize('NFKD', old)
new = norm.encode('ascii', 'ignore')
print old
print new

Výsledek:

ahojáÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ
ahojaAcCdDeEeEiInNoOrRsStTuUuUyYzZ

Základní myšlenka by měla fungovat pro jakékoli kódování.
Opravdu nerad vytahuji staré vyřešené vlákno, ale momentálně nemám kam jinam bych si to zapsal ;-)

Dotaz: Ako sa zbavit diakritiky

Odpovědi