Portál AbcLinuxu, 9. srpna 2025 15:37
Po třech letech práce vyšla pátá verze standardu Unicode. Cílem Unicode je definovat všechny lidmi používané znaky pro používání na počítačích.
Tiskni
Sdílej:
Nestabilní (pátá verze, hahaha)Pokud je mi známo, updaty se týkají jen přidávání znaků, že by se znak na jedné pozici vzal a nahradil jiným se snad nedělá. Asi nebylo možné zahrnout na počátku všechny možné znaky – jednak nemusela být kapacita všechny je sehnat, jednak mohou vznikat znaky nové (třeba €).
neefektivní (32 bitů je jim málo)Unicode je znaková sada, tedy přiděluje jednotlivým znakům čísla. A když těch znaků je víc než 2^16, tak na se holt musí přidělovat i vyšší čísla. Momentálně má Unicode téměř 100 000 znaků, takže do 2^32 se vejde vpohodě. Kódovat se dá Unicode klidně do 8 bitů – viz UTF-8.
asi 10 způsobů kódování, žádný jeden z nich není "default" nebo aspoň "recommended"UTF-8, UTF-16 a UTF-32 – to jsou 3, ne? Daleko horší je, že je ještě stále spousta programů, které Unicode nerozumí. Ostatně, jak byste vámi zmíněné "chyby" řešil?
def encode(c): r = '' l = 0x80 while c >= l: c -= l r = chr(0x80 + c % 0x80) + r c /= 0x80 l /= 2 return chr(0x100 - l - l + c) + r
mezi UCS-32 a UTF-8 přesto existují podstatné rozdílyDo háje... samozřejmě jsem myslel mezi UCS-32 a UTF-32.
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.