Proč používám UTF-8

Přihlášení | Registrace

napište » Zprávičky

Kali Linux 2025.2

dnes 17:35 | Nová verze

Byla vydána (𝕏) nová verze 2025.2 linuxové distribuce navržené pro digitální forenzní analýzu a penetrační testování Kali Linux (Wikipedie). Přehled novinek se seznamem nových nástrojů v oficiálním oznámení na blogu.

Ladislav Hagara | Komentářů: 0

Dánské ministerstvo pro digitální záležitosti má v plánu přejít na Linux a LibreOffice

dnes 10:33 | Komunita

Dánské ministerstvo pro digitální záležitosti má v plánu přejít na Linux a LibreOffice [It's FOSS News].

Ladislav Hagara | Komentářů: 8

AOSP (Android Open Source Project) bez zdrojových kódů specifických pro telefony Pixel od Googlu

dnes 09:22 | Komunita

V úterý Google vydal Android 16. Zdrojové kódy jsou k dispozici na AOSP (Android Open Source Project). Chybí (zatím?) ale zdrojové kódy specifické pro telefony Pixel od Googlu. Projekty jako CalyxOS a GrapheneOS řeší, jak tyto telefony nadále podporovat. Nejistá je podpora budoucích Pixelů. Souvisí to s hrozícím rozdělením Googlu (Google, Chrome, Android)?

Ladislav Hagara | Komentářů: 0

Visual Studio Code a VSCodium 1.101

včera 20:22 | Nová verze

Byla vydána (𝕏) květnová aktualizace aneb nová verze 1.101 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.101 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

Ladislav Hagara | Komentářů: 0

DevConf.CZ 2025

včera 10:00 | Komunita

V Brně na FIT VUT probíhá třídenní open source komunitní konference DevConf.CZ 2025. Vstup je zdarma, nutná je ale registrace. Na programu je celá řada zajímavých přednášek, lightning talků, meetupů a workshopů. Přednášky lze sledovat i online na YouTube kanálu konference. Aktuální dění lze sledovat na Matrixu, 𝕏 nebo Mastodonu.

Ladislav Hagara | Komentářů: 0

Senát schválil nová pravidla pro kybernetickou bezpečnost

včera 09:44 | IT novinky

Vyloučení technologií, které by mohly představovat bezpečnostní riziko pro stát, má umožnit zákon o kybernetické bezpečnosti, který včera Senát schválil spolu s novelami navazujících právních předpisů. Norma, kterou nyní dostane k podpisu prezident, počítá rovněž s prověřováním dodavatelů technologií pro stát. Normy mají nabýt účinnosti od třetího měsíce po jejich vyhlášení ve Sbírce zákonů.

Ladislav Hagara | Komentářů: 4

Home Assistant 2025.6

včera 01:11 | Nová verze

Open source platforma Home Assistant (Demo, GitHub, Wikipedie) pro monitorování a řízení inteligentní domácnosti byla vydána v nové verzi 2025.6.

Ladislav Hagara | Komentářů: 0

Rocky Linux 10.0

včera 00:55 | Nová verze

Po Red Hat Enterprise Linuxu a AlmaLinuxu byl v nové stabilní verzi 10.0 vydán také Rocky Linux. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Eclipse IDE 2025-06 aneb Eclipse 4.36

11.6. 22:55 | Nová verze

Bylo vydáno Eclipse IDE 2025-06 aneb Eclipse 4.36. Představení novinek tohoto integrovaného vývojového prostředí také na YouTube.

Ladislav Hagara | Komentářů: 0

Studia Disney a Universal žalují firmu Midjourney kvůli autorským právům

11.6. 22:33 | IT novinky

Americká filmová studia Walt Disney a Universal Pictures podala žalobu na provozovatele populárního generátoru obrázků pomocí umělé inteligence (AI) Midjourney. Zdůvodňují to údajným porušováním autorských práv. V žalobě podané u federálního soudu v Los Angeles označují firmu za „bezednou jámu plagiátorství“, neboť podle nich bez povolení bezostyšně kopíruje a šíří postavy z filmů jako Star Wars, Ledové království nebo Já, padouch, aniž by do nich investovala jediný cent.

Ladislav Hagara | Komentářů: 1

Centrum | Napsat | Starší

navrhněte » Anketa

Jaký je váš oblíbený skriptovací jazyk?

bash (56%)

python (31%)

perl (7%)

powershell (2%)

batch (0%)

vbscript (1%)

jiný, uvedu v diskusi (3%)

Celkem 257 hlasů

Komentářů: 16, poslední 8.6. 21:05

Rozcestník

AbcLinuxu

HDmag.cz

Luk - Kacířské myšlenky

Občas není od věci vyslovit něco, za co se upaluje nebo ukamenovává. Nic není totiž tak jednoduché, aby byla pravda vždy jediná a na první pohled zřejmá.

Aktuální zápisy

? Archív

? Oblíbené stránky

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / Kacířské myšlenky / Rouhání největší / Proč používám UTF-8

Štítky: distribuce, Fedora, Windows

Proč používám UTF-8

12.7.2005 14:16 | Přečteno: 1806× | Rouhání největší

Problém, jak řešit zakódování národně specifických znaků, se ve výpočetní technice řešil již od dřevních dob (přesněji řečeno od okamžiku, kdy chtěl někdo používat něco víc než holé anglickou abecedu). Pro české znaky se v historii používala mnohá kódování, každé mělo nějaké výhody a nevýhody (na legendární kódování bratří Kamenických si ještě leckdo vzpomene, občas ho ještě někdo použije i dnes). Po postupném vystřídání všeho možného jsem zjistil, že je nejvýhodnější používat UTF-8.

Pominu-li zmiňované bratry Kamenické a různé pokusy o národní kódování (říkám pokusy, protože třeba kódování KOI8ČS se neujalo, přestože bylo určeno ČSN jako "jediné správné"), stejně tak jako používání proprietárních kódových stránek, za první skutečně významný krok lze považovat zavedení skupiny kódování podle normy ISO 8859. Znaky české abecedy jsou součástí ISO 8859-2 (což asi každý ví), proto bylo (a stále je) naprosto běžné používat tuto sadu.

Protože přepínání kódových stránek se změnou jazyka je věc dost nepříjemná, objevil se fenomen zvaný Unicode - systém, který umožňuje snadnou práci s libovolným počtem národních abeced současně. Snaha o normalizaci tohoto systému vyústila v normu ISO/IEC 10646, která pokrývá hlavní část tohoto systému (a do budoucna se plánuje pokrytí celého standardu).

Unicode si samozřejmě nevystačí s jedním bajtem pro každý znak. Nejobvykleji se každý znak ukládá dvoubajtově (UCS-2), lze použít i čtyřbajtovou reprezentaci (UCS-4). Tyto reprezentace se hodí hlavně pro vnitřní uložení v paměti, pro ukládání dat a jejich přenos jsou vhodnější tzv. transformační formáty (UTF). Jsou v zásadě tři: UTF-8, UTF-16 a UTF-32 (u dvou posledních se rozlišují ještě varianty podle pořadí bajtů). Formát UTF-8 zakódovává každý Unicode znak jako osmibitové hodnoty, a to tak, že podle potřeby (resp. podle hodnoty) používá 1-4 bajty.

Právě UTF-8 jsem si v poslední době velmi oblíbil, zjistil jsem totiž, že mi přináší téměř samé výhody:

Odpadají problémy s "cizími" znaky. Někdy je potřeba v textu použít, byť třeba jen jediný, znak nepatřící do běžné národní abecedy. Co s tím? Při použití běžného osmibitového kódování to většinou vede na použití znaku co nejpodobnějšího, ale stejně to není ono. UTF-8 to hravě vyřeší.
Více jazyků pohromadě - žádný problém. Stalo se mi, že jsem musel použít na jedné webové stránce pohromadě třeba češtinu a ruštinu (nebo dokonce i hebrejštinu, ale to už je extrém). S UTF-8 je to absolutně bez problémů, "klasická" kódování žádné řešení nenabízejí (různé jazyky dokonce nelze použít ani v různých rámech, jakkoli jsou rámy zvěrstvo největší).
Není třeba řešit platformy. Kdo pracuje na stejných souborech ve více systémech, má určitý problém s kódováním. Když si jako základ určí třeba ISO 8859-2, ve Windows ho editor klidně otevře jako CP1250 (nebo to může člověk udělat omylem ručně) a na guláš je zaděláno. To se s UTF-8 nestane, automatická detekce ho většinou rozpozná bez problémů, a při ručním otvírání si člověk hned všimne, pokud by kódování vybral špatně.
ASCII projde transparentně. Protože hodnoty do 127 (tedy 7 bitů) se do UTF-8 ukládají jednobajtově, jsou čisté ASCII texty zpracovávány zcela transparentně. To je výhoda oproti jiným reprezentacím Unicode, a to výhoda dost podstatná.
Default na RedHat / Fedora Core. Tohle už je poměrně specifická věc, ale pro mě má význam. Protože už dlouhodobě používám GNU/Linux právě z těchto distribucí, obecně jsem si zvykl používat UTF-8, mimo jiné právě proto, že je to zde výchozí kódování.

Samozřejmě, že UTF-8 má i své nevýhody. Texty zabírají více místa, ne všechny programy s nimi umí správně pracovat (hlavně ty starší), jsou hůře čitelné v ASCII reprezentaci, pro výměnu dat s jinými lidmi (kteří UTF-8 zatím nepoužívají) je nutná konverze apod. Ale výhody jednoznačně převažují, proto je pro mě UTF-8 dobrou volbou.

Hodnocení: 100 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (0) ? , Tisk

Vložit další komentář

12.7.2005 14:28 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Nuly

Odpovědět | Sbalit | Link | Blokovat | Admin

K "ASCII projde transparentě" bych přidal "nulový bajt znamená jedině znak s kódem nula", takže řetězce lze stále ukládat jako nulou ukončené posloupnosti bajtů.

Srovnej s

$ echo "Žluťoučký kůň" | recode utf-8..utf-16 | xxd
0000000: feff 017d 006c 0075 0165 006f 0075 010d  ...}.l.u.e.o.u..
0000010: 006b 00fd 0020 006b 016f 0148 000a       .k... .k.o.H..

12.7.2005 15:34 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše UTF

Odpovědět | Sbalit | Link | Blokovat | Admin

Shodou okolností jsem teď chtěl napsat něco podobného. Já na Gentoo řešil pořád nějaké problémy s češtinou a nakonec bylo nejjednodušší celý systém překlopit do utf-8. Teď si říkám, škoda, že to tak není už defaultně.

Myslím, že argument o větší velikosti utf-8 textů nemá u češtiny takovou váhu. Udělal jsem si pokus, kdy jsem tento příspěvek vložit tisíckrát do souboru a ten pak rekódoval do iso-8859-2

$ ls -lh
celkem 7,9M
-rw-r--r--  1 misak users 3,7M čec 12 15:21 blog.iso.txt
-rw-r--r--  1 misak users 4,2M čec 12 15:20 blog.utf8.txt
$ gzip blog*
$ ls -lh
celkem 60K
-rw-r--r--  1 misak users 25K čec 12 15:21 blog.iso.txt.gz
-rw-r--r--  1 misak users 30K čec 12 15:20 blog.utf8.txt.gz

Větším problémem mi přijde to, že většina odpovědí googlu na "něco utf-8" už začíná vést na neanglicky psané stránky :-(

, protože angličané toto prakticky neřeší.

When your hammer is C++, everything begins to look like a thumb.

12.7.2005 22:52 Spike | skóre: 30 | blog: Communicator | Praha
Rozbalit Rozbalit vše Re: UTF

HOWTO: Using UTF-8 on Gentoo (edited) (Jen kdyby náhodou...)

12.7.2005 23:50 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: UTF

Vím a znám :-)

. Ostatně já to prováděl podle HOWTO Make your system use unicode/utf-8. Největší problém jsem měl s mplayerem, ale nakonec jsem zjistil, že musím vypnout podoru pro fribidi, takže LINGUAS="en"; USE="-bidi"; emerge mplayer.

When your hammer is C++, everything begins to look like a thumb.

12.7.2005 17:04 petr_p
Rozbalit Rozbalit vše Par pripominek

Odpovědět | Sbalit | Link | Blokovat | Admin

Vyborny clanek.

Jen bych dodal, ze problem kodovani uz resil napr. pan Turing, coz bylo davno pred vznikem pocitacu, tak jak je zname dnes. Obecne kodovani znamena mapovani znaku jedne konecne abecedy na znaky jine konecne abecedy.

Americani si vybraly 128-znakovou abecedu, Zapadoevropane 256 znaku a Japonci nebo Korejci 2^16.

S tim souvisi tvrzeni Unicode - systém, který umožňuje snadnou práci s libovolným počtem národních abeced současně, ktere je platne jen zde na Zemi.

Taky by bylo dobre ozrejmit rozdil mezi pojmy znakova sada a kodovani. UNICODE je znakova sada (tj. prirazeni ordinalnich cisel znakum abecedy), UTF-8 je kodovani (tj. zpusob zapisu ordinalniho cisla). Tazke v UTF-8 je napr. mozne zapsat znak Ž jak Zˇ, tedy velke zet s hackem.

Nedavno jsem si dal tu praci a doplnil si do systemu vsechy potrebne fonty na to, aby seznam jazykovych mutaci Wikipedie byl hezky "cesky" a nestrasili tam obdelnicky s hexadec. ord. hodnotu. Pri te prilezitosti jsem zjistil, ze napr. v Indii existuji asi 3 ruzna kodovani, pricemz i hlavy pomazane (jako vlada nebo LUG) zavrhuji UTF-8 jako neperspektivni cestu. No, jiny kraj, jiny mrav.

12.7.2005 22:27 Pmx
Rozbalit Rozbalit vše UTF-8 - Sem s ním

Odpovědět | Sbalit | Link | Blokovat | Admin

Co se mě osobně líbí je, že v UTF-8 pracuje třeba GTK (Glib tím pádem poskytuje funkce pro práci s textem v UTF-8), takže se o kódování programátor nemusí vůbec starat.

Že je text v UTF-8 náročnější na velikost zabrané paměti atd. je bezvýznamné oproti jeho výhodám. Tak mě napadá, má UTF-8 vůbec nějaké nevýhody? :) (Kromě případné nepodpory některého softwaru.)

Mimochodem, vzpomněl jsem si na jeden odkaz: UTF-8 and Unicode FAQ for Unix/Linux

13.7.2005 00:05 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: UTF-8 - Sem s ním

Hlavní nevýhodou je proměnná délka znaku, což komplikuje "random access" řetězcové operace nebo třeba alokaci paměti (kontrolní otázka: kolik paměti potřebujete alokovat, aby se do ní určitě vešel UTF-8 řetězec o délce 100 znaků (nepočítám-li ukončující značku)? Hint: 100 B, 200 B, ba ani 300 B není správně).

13.7.2005 11:20 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: UTF-8 - Sem s ním

Vnitřně to lze ukládat jako UCS-2, i když se tím zase zanesou jiné problémy.

V původním smyslu příspěvku jsem měl na mysli především uživatelské použití UTF-8; protože dělám hlavně v Javě, problémy s alokací paměti pro C řetězec mě netrápí :-)

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

13.7.2005 18:30 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: UTF-8 - Sem s ním

No, UCS-2… Docela se těším na to, až začnou padat jako hrušky všechny ty windowsové aplikace, které používají UCS-2 a říkají mu UTF-16… To se teprve nasmějeme… :-) Což, mimochodem souvisí i s tou mou otázkou: většina lidí je totiž (na základě současného stavu) přesvědčena, že stačí 300 B, jenže ono je to 600 B…

13.7.2005 19:00 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: UTF-8 - Sem s ním

No, pod Windows programuji už nějaký ten pátek, ale práci s Unicode ve Windows jsem dodnes nepochopil :-)

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

13.7.2005 21:40 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: UTF-8 - Sem s ním

Z dob, kdy jsem ještě pod Windows pracoval a programoval, jsem nabyl dojmu, že snaha něco tam pochopit je chybou, protože to výrazně snižuje produktivitu práce… :-) S trochou cynismu bych řekl, že základní problém s linuxovými začátečníky, kteří přišli z platformy Windows, je naučit je, že

má smysl (a je žádoucí) číst dokumentaci
má smysl (a je žádoucí) číst chybové hlášky

protože jejich dlouhodobá zkušenost je naučila pravý opak. :-)

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje