Standardní knihovna pro Python - 7 (řetězce 3) (diskuse)

Přihlášení | Registrace

napište » Zprávičky

dnes 16:33 | Nová verze

Byla vydána nová stabilní verze 3.20.0, tj. první z nové řady 3.20, minimalistické linuxové distribuce zaměřené na bezpečnost Alpine Linux (Wikipedie) postavené na standardní knihovně jazyka C musl libc a BusyBoxu. Z novinek lze vypíchnou počáteční podporu 64bitové architektury RISC-V.

Ladislav Hagara | Komentářů: 0

Jolla Community Phone a Jolla Mind2 Community Edition AI Computer

dnes 14:11 | IT novinky

Společnost Jolla na akci s názvem Jolla Love Day 2 - The Jolla comeback představila telefon se Sailfish OS 5.0 Jolla Community Phone (ve spolupráci se společností Reeder) a počítač Jolla Mind2 Community Edition AI Computer.

Ladislav Hagara | Komentářů: 0

Alfa verze LibreOffice 24.8 dostupná k testování

dnes 12:33 | Nová verze

LibreOffice 24.8 bude vydán jako finální v srpnu 2024, přičemž LibreOffice 24.8 Alpha1 je první předběžnou verzí od začátku vývoje verze 24.8 v prosinci 2023. Od té doby bylo do úložiště kódu odesláno 4448 commitů a více než 667 chyb bylo v Bugzille nastaveno jako opravené. Nové funkce obsažené v této verzi LibreOffice najdete v poznámkách k vydání.

ZCR | Komentářů: 0

MagPi 141 a HackSpace 78

včera 23:33 | Nová verze

Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 141 (pdf) a HackSpace 78 (pdf).

Ladislav Hagara | Komentářů: 0

Kotlin 2.0.0 a KotlinConf 2024

včera 21:22 | Nová verze

Byla vydána verze 2.0.0 programovacího jazyka Kotlin (Wikipedie, GitHub). Oficiálně bude představena ve čtvrtek na konferenci KotlinConf 2024 v Kodani. Livestream bude možné sledovat na YouTube.

Ladislav Hagara | Komentářů: 1

Erlang/OTP 27.0

včera 12:55 | Nová verze

Byla vydána nová major verze 27.0 programovacího jazyka Erlang (Wikipedie) a související platformy OTP (Open Telecom Platform, Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 0

HandBrake 1.8.0

včera 01:11 | Nová verze

Byla vydána nová verze 1.8.0 svobodného multiplatformního softwaru pro konverzi video formátů HandBrake (Wikipedie). Přehled novinek v poznámkách k vydání na GitHubu. Instalovat lze také z Flathubu.

Ladislav Hagara | Komentářů: 0

Microsoft Copilot+

20.5. 21:55 | IT novinky

Microsoft představil nové označení počítačů Copilot+. Dle oznámení se jedná se o počítače poskytující funkce umělé inteligence. Vedle CPU a GPU mají také NPU (Neural Processing Unit). Uvnitř představených Copilot+ notebooků běží ARM čipy Qualcomm Snapdragon X Elite nebo X Plus.

Ladislav Hagara | Komentářů: 6

Zranitelnost CVE-2024-4367 v PDF.js (Firefox < 126)

20.5. 17:55 | Zajímavý článek

Příspěvek na blogu Codean Labs rozebírá zranitelnost CVE-2024-4367 v PDF.js, tj. mj. prohlížeči PDF souborů ve Firefoxu. Při otevření útočníkem připraveného pdf souboru může být spuštěn libovolný kód v JavaScriptu. Vyřešeno ve Firefoxu 126.

Ladislav Hagara | Komentářů: 1

Lazygit 0.42.0

20.5. 12:55 | Nová verze

Lazygit byl vydán ve verzi 0.42.0. Jedná se o TUI (Text User Interface) nadstavbu nad gitem.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (81%)

Jsem člověk. (5%)

Opravdu jsem člověk! (8%)

Jsem něco jiného. (7%)

Celkem 454 hlasů

Komentářů: 16, poslední 14.5. 11:05

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Články / Standardní knihovna pro Python - 7 (řetězce 3) / Standardní knihovna pro Python - 7 (řetězce 3) (diskuse)

Štítky: kernel, programování, Python

Nástroje: Začni sledovat (1) ?

Vložit další komentář

13.2.2007 00:54 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Odpovědět | Sbalit | Link | Blokovat | Admin

Je to divný, ale ten maketrans s češtinou mi s UTF-16 funguje. ;-)

Zjevně i Pythonu nějaký ten krůček do úplné unicodizace chybí. Za modul unicodedata budiž ovšem had blahoslaven a veleben. :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 10:48 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Jestli mohu doporučit, tak funkcím maketrans/translate je dobré se vyhnout, pokud si opravdu nejste naprosto jistí, že je opravdu potřebujete. Tyto funkce pracují s jednotlivými bajty (nikoli znaky), což se moc nehodí při práci s utf-8 a při práci s textem obecně. Jestliže ten maketrans s češtinou fungoval, byla to náhoda. A pokud nefungoval, nebyla to chyba pythonu ;-)

Pro překódování řetězce odněkud někam je lepší použít encode/recode. Pro "hádání" kódování slouží Yetiho enca se svým pythonovským modulem pyenca. Pro odstranění diakritiky lze využít výše zmíněný modul unicodedata.

Jo a díky za pěkný článek!

13.2.2007 11:57 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Takhle nějak?

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if "COMBINING" not in unicodedata.name(aChar))

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 12:01 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Á, odpovím si sám:

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if not unicodedata.combining(aChar))

bude očividně mnohem rychlejší. :-)

Budu si ten modul muset prostudovat. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 13:28 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Vida, díky - tvůj postup naprosto precizně odstraní akcenty :-)

Zkusil jsem si s tím taky pohrát a dostal jsem se do svízele s tím, že vlastně nechápu, k čemu se to vlastně používá. Má to smysl možná tehdy, když musí být výsledkem ascii řetězec, a pak pouhé odstranění akcentů nestačí. Zde je ukázka několika možností:

#!/usr/bin/env python
#coding: utf-8

import unicodedata

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if not unicodedata.combining(aChar))
                   
old_cz = u'áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ'
old_fr = u'ôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ'
old = old_cz + old_fr
print old
print deaccent(old)
print deaccent(old).encode('ascii', 'replace')
print deaccent(old).encode('ascii', 'ignore')
print unicodedata.normalize('NFKD', old).encode('ascii', 'ignore')
print unicodedata.normalize('NFKD', old).encode('ascii', 'replace')

Výsledek je toto:

áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ
aAcCdDeEeEiInNoOrRsStTuUuUyYzZoœuuuyaaceeeeiiOŒUUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZo?uuuyaaceeeeiiO?UUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
a?A?c?C?d?D?e?E?e?E?i?I?n?N?o?O?r?R?s?S?t?T?u?U?u?U?y?Y?z?Z?
 o??u?u?u?y?a?a?c?e?e?e?e?i?i?O??U?U?U?Y?A?A?C?E?E?E?E?I?I?

Jak je vidět, s češtinou celkem není problém, a proto pro ni lze na netu najít tolik více či méně korektních postupů. Ale zkusil jsem francouzštinu a pro ascii reprezentaci by to ještě chtělo spravit ty ligatury.

13.2.2007 13:41 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Tak s těmi ligaturami bacha, ono v některých jazycích je to plnohodnotné písmeno, takže jakékoli odstraňování čehokoliv je locale-dependent. ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 14:47 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Aha, máš pravdu:

>>> import unicodedata
>>> unicodedata.name(u'Œ')
'LATIN CAPITAL LIGATURE OE'
>>> unicodedata.name(u'Æ')
'LATIN CAPITAL LETTER AE'

Konverze do ASCII (nebo spíš latin-1?) by IMHO locale-dependent být nemusela. Ale nejsem si jistý. Za přečtení stojí tohleto: http://effbot.org/zone/unicode-convert.htm Uf. Radši akcenty nikdy neodstraňovat.

13.2.2007 15:21 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Mnojo, jazykověda je ještě lepší zábava než linuxový kernel. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 15:43 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Hehe

A když už jsme u těch akademických debat, zdá se, že pro převod do ASCII se při normalizaci víc hodí parametr 'NFKD' (místo 'NFD'), přestože ničí část informace. Například:

>>> ctvrtka = u'\N{VULGAR FRACTION ONE QUARTER}'
>>> print unicodedata.normalize('NFKD', ctvrtka)
1⁄4
>>> print unicodedata.normalize('NFD', ctvrtka)
¼

Bohužel, někteří často pomocí skriptů převádějí do ASCII názvy souborů a adresářů. Takže když bude v názvu jedna čtvrtina, vyrobí se z toho nadbytečné lomítko, které v cestě nadělá paseku. No teoreticky by se to stát mohlo, no ne? :-)