Standardní knihovna pro Python - 7 (řetězce 3) (diskuse)

Přihlášení | Registrace

napište » Zprávičky

dnes 12:55 | Nová verze

Microsoft vydal novou velkou aktualizaci 2404.23 v září 2019 pod licencí SIL Open Font License (OFL) zveřejněné rodiny písma Cascadia Code pro zobrazování textu v emulátorech terminálu a vývojových prostředích.

Ladislav Hagara | Komentářů: 0

OpenTofu 1.7.0

dnes 05:33 | Nová verze

OpenTofu, tj. svobodný a otevřený fork Terraformu vzniknuvší jako reakce na přelicencování Terraformu z MPL na BSL (Business Source License) společností HashiCorp, bylo vydáno ve verzi 1.7.0. Přehled novinek v aktualizované dokumentaci. Vypíchnout lze State encryption.

Ladislav Hagara | Komentářů: 0

ssh terminal.shop

včera 23:55 | Humor

Spouštět webový prohlížeč jenom kvůli nákupu kávy? Nestačí ssh? Stačí: ssh terminal.shop (𝕏).

Ladislav Hagara | Komentářů: 5

Yocto Project 5.0 "Scarthgap"

včera 18:11 | Nová verze

Yocto Project byl vydán ve verzi 5.0. Její kódové jméno je Scarthgap. Yocto Project usnadňuje vývoj vestavěných (embedded) linuxových systémů na míru konkrétním zařízením. Cílem projektu je nabídnou vývojářům vše potřebné. Jedná se o projekt Linux Foundation.

Ladislav Hagara | Komentářů: 0

9front "do not install"

včera 17:56 | Nová verze

Operační systém 9front, fork operačního systému Plan 9, byl vydán v nové verzi "do not install" (pdf). Více o 9front v FQA.

Ladislav Hagara | Komentářů: 0

PeerTube 6.1

včera 13:11 | Nová verze

Svobodná webová platforma pro sdílení a přehrávání videí PeerTube (Wikipedie) byla vydána v nové verzi 6.1. Přehled novinek i s náhledy v oficiálním oznámení a na GitHubu. Řešeny jsou také 2 bezpečnostní chyby.

Ladislav Hagara | Komentářů: 3

run0, alternativa k příkazu sudo založena na systemd

včera 12:33 | Zajímavý software

Lennart Poettering na Mastodonu představil utilitu run0. Jedná se o alternativu k příkazu sudo založenou na systemd. Bude součástí systemd verze 256.

Ladislav Hagara | Komentářů: 20

Amarok 3.0 "Castaway"

29.4. 23:22 | Nová verze

Hudební přehrávač Amarok byl vydán v nové major verzi 3.0 postavené na Qt5/KDE Frameworks 5. Předchozí verze 2.9.0 vyšla před 6 lety a byla postavená na Qt4. Portace Amaroku na Qt6/KDE Frameworks 6 by měla začít v následujících měsících.

Ladislav Hagara | Komentářů: 13

Ubuntu 24.10 bude Oracular Oriole

29.4. 21:44 | Komunita

Ubuntu 24.10 bude Oracular Oriole (věštecká žluva).

Ladislav Hagara | Komentářů: 14

Git 2.45.0

29.4. 20:22 | Nová verze

Byla vydána nová verze 2.45.0 distribuovaného systému správy verzí Git. Přispělo 96 vývojářů, z toho 38 nových. Přehled novinek v příspěvku na blogu GitHubu a v poznámkách k vydání. Vypíchnout lze počáteční podporu repozitářů, ve kterých lze používat SHA-1 i SHA-256.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

KDE Plasma 6

už používám (75%)

čekám, až se dostane do mé distibuce (8%)

čekám na pozdější vydání v řadě (2%)

preferuji jiné desktopové prostředí (16%)

Celkem 893 hlasů

Komentářů: 4, poslední 6.4. 15:51

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Články / Standardní knihovna pro Python - 7 (řetězce 3) / Standardní knihovna pro Python - 7 (řetězce 3) (diskuse)

Štítky: kernel, programování, Python

Nástroje: Začni sledovat (1) ?

Vložit další komentář

13.2.2007 00:54 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Odpovědět | Sbalit | Link | Blokovat | Admin

Je to divný, ale ten maketrans s češtinou mi s UTF-16 funguje. ;-)

Zjevně i Pythonu nějaký ten krůček do úplné unicodizace chybí. Za modul unicodedata budiž ovšem had blahoslaven a veleben. :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 10:48 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Jestli mohu doporučit, tak funkcím maketrans/translate je dobré se vyhnout, pokud si opravdu nejste naprosto jistí, že je opravdu potřebujete. Tyto funkce pracují s jednotlivými bajty (nikoli znaky), což se moc nehodí při práci s utf-8 a při práci s textem obecně. Jestliže ten maketrans s češtinou fungoval, byla to náhoda. A pokud nefungoval, nebyla to chyba pythonu ;-)

Pro překódování řetězce odněkud někam je lepší použít encode/recode. Pro "hádání" kódování slouží Yetiho enca se svým pythonovským modulem pyenca. Pro odstranění diakritiky lze využít výše zmíněný modul unicodedata.

Jo a díky za pěkný článek!

13.2.2007 11:57 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Takhle nějak?

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if "COMBINING" not in unicodedata.name(aChar))

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 12:01 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Á, odpovím si sám:

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if not unicodedata.combining(aChar))

bude očividně mnohem rychlejší. :-)

Budu si ten modul muset prostudovat. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 13:28 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Vida, díky - tvůj postup naprosto precizně odstraní akcenty :-)

Zkusil jsem si s tím taky pohrát a dostal jsem se do svízele s tím, že vlastně nechápu, k čemu se to vlastně používá. Má to smysl možná tehdy, když musí být výsledkem ascii řetězec, a pak pouhé odstranění akcentů nestačí. Zde je ukázka několika možností:

#!/usr/bin/env python
#coding: utf-8

import unicodedata

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if not unicodedata.combining(aChar))
                   
old_cz = u'áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ'
old_fr = u'ôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ'
old = old_cz + old_fr
print old
print deaccent(old)
print deaccent(old).encode('ascii', 'replace')
print deaccent(old).encode('ascii', 'ignore')
print unicodedata.normalize('NFKD', old).encode('ascii', 'ignore')
print unicodedata.normalize('NFKD', old).encode('ascii', 'replace')

Výsledek je toto:

áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ
aAcCdDeEeEiInNoOrRsStTuUuUyYzZoœuuuyaaceeeeiiOŒUUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZo?uuuyaaceeeeiiO?UUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
a?A?c?C?d?D?e?E?e?E?i?I?n?N?o?O?r?R?s?S?t?T?u?U?u?U?y?Y?z?Z?
 o??u?u?u?y?a?a?c?e?e?e?e?i?i?O??U?U?U?Y?A?A?C?E?E?E?E?I?I?

Jak je vidět, s češtinou celkem není problém, a proto pro ni lze na netu najít tolik více či méně korektních postupů. Ale zkusil jsem francouzštinu a pro ascii reprezentaci by to ještě chtělo spravit ty ligatury.

13.2.2007 13:41 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Tak s těmi ligaturami bacha, ono v některých jazycích je to plnohodnotné písmeno, takže jakékoli odstraňování čehokoliv je locale-dependent. ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 14:47 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Aha, máš pravdu:

>>> import unicodedata
>>> unicodedata.name(u'Œ')
'LATIN CAPITAL LIGATURE OE'
>>> unicodedata.name(u'Æ')
'LATIN CAPITAL LETTER AE'

Konverze do ASCII (nebo spíš latin-1?) by IMHO locale-dependent být nemusela. Ale nejsem si jistý. Za přečtení stojí tohleto: http://effbot.org/zone/unicode-convert.htm Uf. Radši akcenty nikdy neodstraňovat.

13.2.2007 15:21 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Mnojo, jazykověda je ještě lepší zábava než linuxový kernel. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 15:43 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Hehe

A když už jsme u těch akademických debat, zdá se, že pro převod do ASCII se při normalizaci víc hodí parametr 'NFKD' (místo 'NFD'), přestože ničí část informace. Například:

>>> ctvrtka = u'\N{VULGAR FRACTION ONE QUARTER}'
>>> print unicodedata.normalize('NFKD', ctvrtka)
1⁄4
>>> print unicodedata.normalize('NFD', ctvrtka)
¼

Bohužel, někteří často pomocí skriptů převádějí do ASCII názvy souborů a adresářů. Takže když bude v názvu jedna čtvrtina, vyrobí se z toho nadbytečné lomítko, které v cestě nadělá paseku. No teoreticky by se to stát mohlo, no ne? :-)