Přihlášení | Registrace

napište » Zprávičky

IBM kupuje společnost HashiCorp za 6,4 miliardy dolarů

včera 22:44 | IT novinky

IBM kupuje společnost HashiCorp (Terraform, Packer, Vault, Boundary, Consul, Nomad, Waypoint, Vagrant, …) za 6,4 miliardy dolarů, tj. 35 dolarů za akcii.

Ladislav Hagara | Komentářů: 2

TrueNAS SCALE 24.04 “Dragonfish”

včera 15:55 | Nová verze

Byl vydán TrueNAS SCALE 24.04 “Dragonfish”. Přehled novinek této open source storage platformy postavené na Debianu v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Raspberry Pi Compute Module 4S s 2 GB, 4 GB a 8 GB paměti

včera 13:44 | IT novinky

Oznámeny byly nové Raspberry Pi Compute Module 4S. Vedle původní 1 GB varianty jsou nově k dispozici také varianty s 2 GB, 4 GB a 8 GB paměti. Compute Modules 4S mají na rozdíl od Compute Module 4 tvar a velikost Compute Module 3+ a předchozích. Lze tak provést snadný upgrade.

Ladislav Hagara | Komentářů: 0

nginx 1.26.0

včera 04:44 | Nová verze

Po roce vývoje od vydání verze 1.24.0 byla vydána nová stabilní verze 1.26.0 webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.26.

Ladislav Hagara | Komentářů: 0

Tails 6.2

včera 04:33 | Nová verze

Byla vydána nová verze 6.2 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Přehled změn v příslušném seznamu. Tor Browser byl povýšen na verzi 13.0.14.

Ladislav Hagara | Komentářů: 0

Electron 30.0.0

včera 04:22 | Nová verze

Byla vydána nová verze 30.0.0 frameworku pro vývoj multiplatformních desktopových aplikací pomocí JavaScriptu, HTML a CSS Electron (Wikipedie, GitHub). Chromium bylo aktualizováno na verzi 124.0.6367.49, V8 na verzi 12.4 a Node.js na verzi 20.11.1. Electron byl původně vyvíjen pro editor Atom pod názvem Atom Shell. Dnes je na Electronu postavena celá řada dalších aplikací.

Ladislav Hagara | Komentářů: 2

QEMU 9.0.0

včera 04:11 | Nová verze

Byla vydána nová verze 9.0.0 otevřeného emulátoru procesorů a virtualizačního nástroje QEMU (Wikipedie). Přispělo 220 vývojářů. Provedeno bylo více než 2 700 commitů. Přehled úprav a nových vlastností v seznamu změn.

Ladislav Hagara | Komentářů: 0

Evropský parlament: Právo na opravu

23.4. 23:22 | IT novinky

Evropský parlament dnes přijal směrnici týkající se tzv. práva spotřebitele na opravu. Poslanci ji podpořili 584 hlasy (3 bylo proti a 14 se zdrželo hlasování). Směrnice ujasňuje povinnosti výrobců opravovat zboží a motivovat spotřebitele k tomu, aby si výrobky nechávali opravit a prodloužili tak jejich životnost.

Ladislav Hagara | Komentářů: 8

Fedora Linux 40 a Slimbook Fedora 2

23.4. 16:11 | Nová verze

Bylo oznámeno (cs) vydání Fedora Linuxu 40. Přehled novinek ve Fedora Workstation 40 a Fedora KDE 40 na stránkách Fedora Magazinu. Současně byl oznámen notebook Slimbook Fedora 2.

Ladislav Hagara | Komentářů: 23

Smyšlené texty na ČTK

23.4. 13:44 | Upozornění

ČTK (Česká tisková kancelář) upozorňuje (X), že na jejím zpravodajském webu České noviny byly dnes dopoledne neznámým útočníkem umístěny dva smyšlené texty, které nepocházejí z její produkce. Jde o text s titulkem „BIS zabránila pokusu o atentát na nově zvoleného slovenského prezidenta Petra Pelligriniho“ a o údajné mimořádné prohlášení ministra Lipavského k témuž. Tyto dezinformace byly útočníky zveřejněny i s příslušnými notifikacemi v mobilní aplikaci Českých novin. ČTK ve svém zpravodajském servisu žádnou informaci v tomto znění nevydala.

Ladislav Hagara | Komentářů: 29

Centrum | Napsat | Starší

navrhněte » Anketa

KDE Plasma 6

už používám (72%)

čekám, až se dostane do mé distibuce (9%)

čekám na pozdější vydání v řadě (2%)

preferuji jiné desktopové prostředí (17%)

Celkem 721 hlasů

Komentářů: 4, poslední 6.4. 15:51

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Články / Kódování textu

Štítky: AbcLinuxu, audio, databáze, Debian, distribuce, Gentoo, GNOME, grafika, hardware, IDE, instalace, Internet, KDE, kernel, Linux, multimédia, ovladače, problém, programování, prohlížeče, server, sítě, software, SUSE, textové editory, Ubuntu, USB, Vim, web, Windows

Kódování textu

30. 10. 2009 | David Watzke | Návody | 19158×

V tomto článku si povíme něco o problematice kódování textu a představíme si několik nástrojů sloužících ke konverzi (a detekci) kódování (Enca, iconv, GNU Recode, cstocs, convmv), to vše doplněno o příklady použití.

Co je to kódování textu?

link

V IT jde o způsob reprezentace znaků pomocí sekvence přirozených čísel nebo bajtů. K čemu to? Protože počítač nekomunikuje abecedou :-). Nejzákladnějším příkladem je 7bitová znaková sada ASCII, která obsahuje znaky anglické abecedy plus další v informatice využívané znaky. Znaků je celkem 128, což vyplývá ze zmiňovaných 7 bitů, protože 2 ^ 7 = 128. Jenže 128 znaků je málo pro obsažení ostatních abeced a dalších znaků, a proto vznikla další kódování, například různá 8bitová rozšíření ASCII (pro češtinu zejména Windows 1250, ISO 8859-2, CP852) s 256 znaky. I toto ovšem bylo málo, a proto bylo vyvinuto kódování Unicode, jehož patrně nejpoužívanější variantou je UTF-8.

Předpokládám, že je vám asi jasné, co za nejrůznější problémy to přináší. Setkal se s tím snad každý. Nejčastěji když například autor webových stránek zapomene uvést kódování v HTML hlavičce a vy pak místo českých znaků vidíte nějaký paskvil. To je tím, že se kódovaný text převádí do námi čitelné podoby pomocí špatné znakové sady.

V následujících odstavcích si předvedeme různé programy sloužící k převodu kódování textu a jeden, který umí opravit špatně kódované názvy souborů.

Konce řádků

link

Dokonce ani na znaku symbolizujícím nový řádek se tvůrci operačních systémů neshodli. Microsoft používá CR+LF (nebo-li \r\n v C), Apple až do doby Mac OS 9 používal CR (\r) a UN*X systémy (včetně Linuxu a Mac OS X) používají LF (\n). I na to je třeba dávat pozor, v praxi na to člověk narazí třeba při spouštění shellového skriptu s CR+LF konci řádků:

$ ./CRLF.sh
bash: ./CRLF.sh: /bin/bash^M: bad interpreter: Adresář nebo soubor neexistuje

Naštěstí to není tak velký problém a poslouží nám zde nástroje dos2unix, mac2unix a unix2dos.

dos2unix soubor_z_windows.txt soubor_z_linuxu.txt

Automatická detekce kódování a Enca

link

Kódování někdy nelze strojově detekovat tak snadno, jak by si někdo mohl myslet. Je zde mnoho háčků, jako třeba podobnost některých kódování, a také to, že je jich opravdu mnoho. Nicméně existují projekty, které se tímto zabývají a jedním z nich je Enca, která má mimochodem původ v ČR a jejím původním autorem je David Nečas (Yeti), který kdysi působil i zde na AbcLinuxu.

Abych encu vyzkoušel, zkusil jsem pomocí níže jmenovaných programů vytvořit pár souborů s textem ěščřžýáíé v různém kódování.

$ enca utf8.txt
Universal transformation format 8 bits; UTF-8

$ enca iso8859-2.txt
ISO 8859-2 standard; ISO Latin 2

$ enca cp1250.txt
MS-Windows code page 1250

$ enca cp852.txt
IBM/MS code page 852; PC (DOS) Latin 2

Enca umí vypsat kódování i ve formátu vhodném pro iconv (přepínač -i), cstocs (-s) nebo podle RFC 1345 (-r).

$ enca -r ~/abcl/kodovani.html
UTF-8

Detekce evidentně funguje dobře. Enca umí i převádět kódování (pomocí nástroje enconv), a to buď vestavěným rozhraním nebo pomocí externích knihoven a nástrojů (libiconv, librecode, cstocs – viz níže). Zkusil jsem testovací soubory převést zpátky na UTF-8 s tím, že jsem nechal encu detektovat vstupní kódování a ani zde nebyl problém. Při převodu z windowsích kódování Enca automaticky ukončuje řádky windowsím stylem (CRLF).

$ enconv -x utf8 < cp1250.txt
ěščřžýáíé

Pokud chcete místo vestavěného převodníku použít jiný podporovaný, nechte se inspirovat následující ukázkou:

# použije externí program, výchozí je cstocs, lze nastavit přes -E
enconv -x cp1250 -C extern < ~/abcl/kodovani.html

# použije libiconv
enconv -x cp1250 -C iconv < soubor.txt

# použije librecode
enconv -x cp1250 -C librecode < ../jiny_soubor.txt

iconv

link

iconv je program (a API) sloužící k převodu kódování textu. Je součástí standardu Single UNIX Specification. Poprvé se objevil na systému HP-UX. Na GNU/Linuxu je dostupná svobodná implementace v glibc, což je standardní knihovna programovacího jazyka C od GNU.

Nyní si předvedeme ukázku použití. Pro vypsání všech známých kódování spusťte:

iconv -l

Jelikož iconv dokáže pracovat jak se standardním vstupem a výstupem, tak se soubory, můžete dle potřeby použít přesměrování shellu, roury nebo přímo rozhraní programu. Oba následující příkazy provedou to samé; převedou text z kódování Windows 1250 na UTF-8.

iconv -f cp1250 -t utf8 < cp1250-vstup.txt > utf8-vystup.txt
iconv -f cp1250 -t utf8 cp1250-vstup.txt -o utf8-vystup.txt

GNU Recode

link

Projekt Recode je též knihovna i program (recode). Umí využívat iconv a podporuje tak až 300 různých kódování.

# změní kódování souboru „soubor.txt“ z UTF-8 na Windows 1250
recode utf8..cp1250 soubor.txt

# nebo když nechcete přepsat původní soubor:
recode utf8..cp1250 < soubor.txt > jiny_soubor.txt

Recode podporuje nejen znakové sady, ale i různé fajnovosti jako třeba HTML nebo TeX.

$ recode html..utf8 <<< '&amp;&ndash;&amp;'
&–&

cstocs

link

Cstools obsahují dva perlové moduly + nástroj cstocs. Jde o projekt z české dílny a slouží, podobně jako ostatní výše zmiňované nástroje, ke konverzi znakové sady textu. Použití vypadá následovně:

# cstocs [-i] vstupni_kodovani vystupni_kodovani [soubor(y)]

# převod cp1250 na UTF-8
cstocs 1250 utf8 < vstup-v-cp1250.txt > vystup-v-utf8.txt

# převede soubor.txt z UTF-8 na ISO 8859-2
cstocs -i utf8 iso8859-2 soubor.txt

Pokud vstupní kódování obsahuje znak, který není ve výstupní znakové sadě, můžete nastavit, jak se má program zachovat. Například --null tyto znaky vynechá a --fillstring="?" je nahradí za otazník.

convmv

link

Perlový nástroj convmv slouží k převodu kódování názvů souborů. Něco takového je třeba, když si do Linuxu zkopírujete soubor z Windows nebo takto (nedejbože) něco přímo stáhnete. Uživatelé Windows například rádi posílají přílohy s diakritikou v názvu. Ať už jste se do této situace dostali jakkoliv, tak vězte, že praktické použití vypadá následovně:

$ convmv -f cp1250 -t utf8 .
Starting a dry run without changes…
mv "./KOM V�KLAD-1.pol.IV.r.-08.doc"    "./KOM VÝKLAD-1.pol.IV.r.-08.doc"
No changes to your files done. Use --notest to finally rename the files.

Přepínači -f zadáte jako parametr vstupní kódování, -t výstupní a nakonec uvedete soubory či adresáře. Případně přidáte -r pro rekurzivní procházení adresářů. Toto spustíte, prohlédnete si, co se bude dít, a když vám to vyhovuje, tak teprve poté spustíte totéž navíc s přepínačem --notest, se kterým program soubory již skutečně přejmenuje.

$ convmv -r -f cp1250 -t utf8 . --notest
mv "./KOM V�KLAD-1.pol.IV.r.-08.doc"    "./KOM VÝKLAD-1.pol.IV.r.-08.doc"
Ready!

Po tomhle mi už nezbývá, než doporučit odstranit diakritiku z názvů úplně. Přináší to akorát problémy s přenositelností.

Závěr

link

Který z nástrojů na konverzi znakové sady textu si vyberete, to je na vás. Vězte, že v tom, co spolu mají společné, fungují stejně.

$ cat utf8.txt
ěščřžýáíé
$ cstocs utf8 1250 utf8.txt | iconv -f cp1250 -t utf8 | \
  recode utf8..cp1250 | enconv
ěščřžýáíé

Hodnocení: 100 %

špatné • dobré

Nástroje: Tisk bez diskuse

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (4) ? , Tisk

Diskuse byla administrátory uzamčena

30.10.2009 00:51 Prcek | skóre: 43 | Jindřichův Hradec / Brno
Rozbalit Rozbalit vše Re: Kódování textu

To logo článku je nějak špatně, ne? :-)

Slovo žluťoučký má velké Z, ale ta věta přeci zní "Příliš žluťoučký kůň úpěl ďábelské ódy", aby byly obsaženy všechny písmenka s diakritikou. To jen tak mě napadlo ;-)

Člověk je takový, jak vypadá... A já vypadám jako pravá, nefalšovaná děvka!!!

30.10.2009 18:22 cynic_asshole | skóre: 28
Rozbalit Rozbalit vše Re: Kódování textu

Ta věta může být i

Žluťoučký kůň příšerně úpěl ďábelské ódy.

a taky tam jsou obsaženy všechny znaky.

Neznáš nějakou linuxovou distribuci pro Windows?

31.10.2009 15:52 Prcek | skóre: 43 | Jindřichův Hradec / Brno
Rozbalit Rozbalit vše Re: Kódování textu

To sice jo, ale za prvé mi to zní blbě :-)

a za druhé to logo nemá mezi slovy "kůň" a "úpěl" žádné jiné slovo, takže moje připomínka stále platí ;-)

. Ale koukal jsem do nastavení písma v KDE4 a ta věta je tam taky neúplná, takže je to asi globální nedostatek :-)

Člověk je takový, jak vypadá... A já vypadám jako pravá, nefalšovaná děvka!!!

31.10.2009 21:14 cynic_asshole | skóre: 28
Rozbalit Rozbalit vše Re: Kódování textu

Žluťoučký kůň úpěl příšerné ďábelské ódy.

by ti vyhovovalo?

Neznáš nějakou linuxovou distribuci pro Windows?

31.10.2009 21:51 Prcek | skóre: 43 | Jindřichův Hradec / Brno
Rozbalit Rozbalit vše Re: Kódování textu

Dobrej pokus, taky by to šlo, i když dvě přídavná jména za sebou taky nejsou nic moc ;-)

. Asi toho necháme a budeme se věnovat bohulibějším činnostem :-D

Člověk je takový, jak vypadá... A já vypadám jako pravá, nefalšovaná děvka!!!

31.10.2009 23:02 xurpha
Rozbalit Rozbalit vše Re: Kódování textu

A co příšerné ⇒ příšerně? :-D

2.11.2009 15:15 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Kódování textu

Pak to zase není česká věta ale jen věta sestávající z českých slov.

31.10.2009 16:03 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Kódování textu

Jediná věc na celym článku, se kterou nemám nic společnýho a ty tu v tom budeš rejpat :-D

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

30.10.2009 01:20 Václav HFechs Švirga | skóre: 26 | blog: HF | Kopřivnice
Rozbalit Rozbalit vše Re: Kódování textu

U iconvu je dobré si dát bacha, aby vstup a výstup nebyl stejný, jinak si to tuším zároveň přepisuje pod rukama a nedopadne to dobře (možná se pletu)...

Baník pyčo!

30.10.2009 08:48 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Kódování textu

Tenhle příkaz převede utf8 soubor na cp1250 ... dopadne to dobře :-)

iconv -t cp1250 -f utf8 soubor -o soubor

Na co je třeba dávat pozor je tohle

iconv -f cp1250 -t utf8 soubor > soubor
# a tohle
iconv -f cp1250 -t utf8 < soubor > soubor

protože to už tak vesele nedopadne (skončí to prázdným souborem). Ovšem to už není věc iconvu, ale přesměrování shellu.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

30.10.2009 09:52 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Kódování textu

Je třeba upozornit, že se jedná o rozšíření GNU. Posixová specifikace žádný přepínač -o nezná.

30.10.2009 13:16 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Kódování textu

Je zvlastni, ze man iconv neuvadi parametr -o, sam jsem na to prisel nahodou, proste jsem to zkusil a slo to.

GNUniverse - May the source be with you...

2.11.2009 15:17 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Kódování textu

Nápodobně, s tím že já jsem to jen někde zahládl.

2.11.2009 16:58 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Kódování textu

Sekce.

30.10.2009 07:19 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Zapomněl jste na užitečné recode X..flat

In Ada the typical infinite loop would normally be terminated by detonation.

30.10.2009 11:53 Stanislav Brabec | skóre: 45 | Praha
Rozbalit Rozbalit vše Re: Kódování textu

Nebo iconv -f UTF-8 -t ASCII//TRANSLIT.

Pozor, jeho výsledek závisí na locale:

~> echo Müller | LANG=cs_CZ.UTF-8 iconv -f UTF-8 -t ASCII//TRANSLIT
Muller
~> echo Müller | LANG=de_DE.UTF-8 iconv -f UTF-8 -t ASCII//TRANSLIT
Mueller

1.11.2009 15:38 Mti. | skóre: 31 | blog: Mti
Rozbalit Rozbalit vše Re: Kódování textu

coz asi vysvetluje, proc nekteri slovo "Muhehehe" zapisuji chybne jako "Muehehehe" :-D

Vidim harddisk mrzuty, jehoz hlava plotny se dotyka...

30.10.2009 09:34 Radovan Garabík
Rozbalit Rozbalit vše Re: Kódování textu

Chýba tu môj obľúbený konwert. Hlavne pri transliterácii sa mu ostatné konvertory nevyrovnajú.

30.10.2009 10:38 vencas | skóre: 32
Rozbalit Rozbalit vše Re: Kódování textu

Není zméněno, že enconv defaultně konvertuje do kódování podle aktuální locale, takže není třeba výstupní kódování explicitně zadávat. Stačí napsat enconv * a tím je celý adresář zkonvertován do utf-8 (nebo něčeho jiného, pokud to ještě někdo používá).

30.10.2009 10:41 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Kódování textu

Dík za ten convmv.

Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)

30.10.2009 11:07 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Ad convmv: kdysi jsem pracoval na programu, který rekursivně převede jména souborů v celých adresářových stromech do nějaké pevně zadané množiny znaků (obvykle velká/malá písmena, číslice, pomlčky, tečky), tj. transliterace a pak nahrazení nepřípustných znaků, přičemž se samozřejmě inteligentně ošetřovaly konflikty (ukázka.doc a ukazka.doc). Byla to docela fuška :)

In Ada the typical infinite loop would normally be terminated by detonation.

30.10.2009 11:58 Stanislav Brabec | skóre: 45 | Praha
Rozbalit Rozbalit vše Re: Kódování textu

I já jsem kdysi za účelem konverze systému na UTF-8 podobný program napsal: utf8ize. Umí opravovat symlinky a přeskakovat soubory, jejichž názvy již v UTF-8 jsou.

30.10.2009 16:22 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Kódování textu

Kdyby tak už konečně tohle všechno zmizelo a všude zavládlo kódování UTF-8! Hned by bylo na světě o něco lépe.

Jenže to by nesměl existovat Mrkvosoft se svými Windows. To je nejhorší brzda veškerého pokroku. Těžko lze najednou prosadit UTF-8 ve všech textech, síťových protokolech, souborových systémech a lokalizacích aplikací, když drtivá většina českých uživatelů tam všude bude mít zmrzačený-latin-2 zvaný Windows-1250.

I samotná existnce „jazykových verzí“ software svědčí o zoufalé technické zaostalosti Mrkvosoftu v této oblasti. Například u KDE uživatele ani nenapadne, že by měl třeba KDE CZ nebo něco podobného! Když se k jednomu počítači připojí čtyři monitory, čtyři klávesnice a čtyři myši, může si k němu sednout Číňan, Japonec, Čech a Egypťan a všichni čtyři budou mít samozřejmě celé prostředí ve svém jazyce. K Windows zasedne stěží jeden jediný člověk a ani tehdy nic nezaručuje, zda tam bude schopen svoji lokalizaci nějak nastavit.

30.10.2009 17:48 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Over the last year or so, as UTF-8 has finally started to gain some acceptance, I've ran into a lot of UTF-8 zealots who think that UTF-8 should be the single global one-size-fits-all standard; that it is the Final Encoding and there will be nothing after it. They seem to think that programs should assume that all input and output is, will be and should be UTF-8 or, if the program doesn't need to deal with individual characters, that it should ignore character sets and encodings altogether, assuming a single global standard – the UTF-8 monoculture.

Have they not learned that assumption is the mother of all fuck-ups?

In Ada the typical infinite loop would normally be terminated by detonation.

30.10.2009 18:43 vencas | skóre: 32
Rozbalit Rozbalit vše Re: Kódování textu

To je argument z autority? (není uveden autor...) Jsem s utf-8 naprosto spokojen, řeší všechny mé problémy, které jsem kdy s kódováním měl.

30.10.2009 20:27 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Dost Japonců, snad i Číňanů a Korejců (kteří se dostali dostatečně pod povrch) by s tebou nesouhlasilo ;-)

Já taky moc nesouhlasím, stále nějak tápu nad tím, jak to, že "c" a "с" jsou různé znaky, zatímco "..." a "…" má být jedno a totéž.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

30.10.2009 20:31 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Je to úryvek z klasiky Idiot box Linux, respektive podčlánku zabývající se UTF8.

http://www.modeemi.cs.tut.fi/~tuomov/b/2006/the_utf8_monoculturists/

In Ada the typical infinite loop would normally be terminated by detonation.

30.10.2009 22:03 mmmmario
Rozbalit Rozbalit vše Re: Kódování textu

Ono UTF-8 je docela vhodné pro angličtinu (kompatibilita s ASCII-7) i pro češtinu (česká písmena na 2 bajty), ale pro různé japonštiny a čínštiny (až 4 bajty na písmeno/znak) je mnohem vhodnější UCS16 nebo jak se to píše. Prostě každé písmeno pevně 2 bajty ať je z latinky nebo korejsky.

30.10.2009 23:50 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Dva bajty už docela dlouho nestačí (znaků je o pořádný kopec víc než magických 65k). A co se týče Unicode, ty problémy bohužel ani zdaleka nejsou jenom o tom, kolik strašlivě moc prostoru to zabírá. Ono komu dnes záleží na pár bajtech, že.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

31.10.2009 10:04 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Jak jo... když záleží na pár bajtech, použije se daleko silnější komprese, že :). 7zip?

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

31.10.2009 13:38 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Kódování textu

xz (lzma)

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

31.10.2009 10:03 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

utf-16 se to píše (ještě existuje něco jako ucs2 ale teď nevím, jestli je to úplně to samý, utf-16 znaky mají dva nebo čtyři bajty, takže proměnlivá šířka, jako u utf-8, hádám, že dneska už je ucs2 definovaný stejně, kdysi byl unicode dvoubajtový, že).

Pak na spoustu věcí je vhodnější utf-32, které má pevnou šířku znaku. Například ukládat jednoznakovou konstantu do utf-8, kde bude mít jeden až čtyři bajty (teoreticky šest).... je dost nešikovný, když to můžeš dát do utf-32, kde je to klasický integer nebo unsigned integer (unicode je dneska teoreticky až 31bitový).

Teď jsem si všiml, že píšeš o tom, že každé písmeno má pevně dva bajty, to už dávno neplatí. Dneska bys musel použít čtyři.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

31.10.2009 15:31 xurpha
Rozbalit Rozbalit vše Re: Kódování textu

Právěže UCS-2 není definovaný stejně jako UTF-16: USC-2 zvládne kódování jen pro BMP (basic multilingual plan), kdežto UTF-16 cokoliv. Ani UCS-4 a UTF-32 není jedno a to samé, ovšem vzhledem k tomu, že se nepočítá, že by nějaký unicodový znak překročil 15 "plánů", tak je to jedno. Pro interní reprezentaci je skutečně UCS-4 mnohdy lepší, než UTF-8; UTF-16 je k ničemu...

31.10.2009 21:25 mmmmario
Rozbalit Rozbalit vše Re: Kódování textu

To jsem chtěl přesně napsat, UTF-8 je blbý v tom, že máš např. 10B textu a kolik to je písmen? Někdy 10, ale může to být i méně. Chtěl jsem napsat, že daleko vhodnější je kódování s pevnou šířkou 1 znak = x Bajtů.

31.10.2009 21:41 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

No to píšeš špatně :D.

Tak jak to píšeš to vyznívá, že ucs4/utf-32 (v tuhle chvíli beru jako stejný) je obecně lepší než utf-8 a to je nesmysl.

utf-8 má spoustu výhod i nevýhod a mě osobně přijde, že v praxi pro víceznakové řetězce dokonce převažují ty výhody.

utf-8 má v zásobě takové unikátní vlastnosti jako ascii-kompatibilitu, velmi dobrou možnost detekce (teď myslím čisté utf-8 bez jakýchkoli detekčních značek)... schválně si zkuste najít smysluplný text, který by mohl být špatně interpretován jako korektní utf-8.

Zpětná kompatibilita s aplikacemi, relativně dobrá komprese na to, že je to prakticky přímé kódování. Já považuju utf-8 za geniální vynález.

Samozřejmě jde použít vhodným i nevhodným způsobem.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

1.11.2009 09:12 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Já považuju utf-8 za geniální vynález.

Asi tak geniální jako RLE nebo huffman. To jen někteří, co se narodili včera, jsou z toho odvázaní až na půdu.

v praxi pro víceznakové řetězce dokonce převažují ty výhody.

Výhody převažují právě pro nevíceznakové.

In Ada the typical infinite loop would normally be terminated by detonation.

1.11.2009 10:32 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Já považuju utf-8 za geniální vynález.
Asi tak geniální jako RLE nebo huffman. To jen někteří, co se narodili včera, jsou z toho odvázaní až na půdu.

Urážky si nech na doma, tady na ně neni nikdo zvědavej :). I když doma asi taky, ne, viď :). S tímhle přístupem ze sebe akorát uděláš blbce.

v praxi pro víceznakové řetězce dokonce převažují ty výhody.
Výhody převažují právě pro nevíceznakové.

To je podle mě nesmysl. Ukládání jednoho znaku mi přijde daleko lepší do "integeru" než do bajtového řetězce proměnlivé délky.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

31.10.2009 23:06 xurpha
Rozbalit Rozbalit vše Re: Kódování textu

To je jednoduchý, spočítej všechny znaky se 7bitem = 0 (tj. <= 127) a máš to...

1.11.2009 10:35 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

To ti nevyjde, takhle spočítáš jen ascii znaky (pokud beru tu závorku, teda, ta je asi nejpřesnější).

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

1.11.2009 12:19 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Kódování textu

Jenže pokud se předtím někde v tom Japonsku používala angličtina, pak se 2 byty na písmeno ztrácíš zpětnou kompatibilitu

Quando omni flunkus moritati

1.11.2009 12:32 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

A hlavně lidi pro utf-16 o to víc píšou software, co předpokládá dvoubajtové znaky.

Pro utf-8 jsem sice viděl pár kousků, co předpokládaly jednobajtové (ascii), ale daleko rychleji se to poladí, když se na to přijde už někde blízko za hranicema británie než když se to týká jen obskurních jazyků mimo BMP.

Tohle... a byte order, jsou dva důvody, proč si myslím, že v době utf-8 (pro řetězce) a utf-32/integer (pro znaky) je utf-16 úplně k ničemu a naopak dělá problémy.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

30.10.2009 20:24 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Kódování textu

Vsechny problemy s kodovanim by byly vyreseny jedine, kdyby vsude fungovalo UTF-16.

GNUniverse - May the source be with you...

30.10.2009 20:28 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Všechny problémy s kódováním budou vyřešeny jedině až na kódování nebude záležet.

In Ada the typical infinite loop would normally be terminated by detonation.

30.10.2009 20:53 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Kódování textu

Jak vypadá svět, kde na kódování nezáleží?

Já to s tou denacifikací Slovenska myslel vážně.

30.10.2009 21:29 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Kódování textu

Třeba svět XML nebo svět ASN.1. Prostě všude tam, kde data mají svá metadata z definice formátu.

30.10.2009 22:26 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Kódování textu

XML používá Unicode, čili UTF8/UTF16, případně lze nastavit jiné. Mám ale takový pocit, že to bez kódování nepůjde.

Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)

30.10.2009 23:16 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: Kódování textu

XML prece zadne kodovani "nepouziva". Pouze si tam sami napiseme, ve kterem kodovani ten XML soubor ukladame, a je uplne jedno, jestli se pouzije iso nebo utf nebo jine.

GNUniverse - May the source be with you...

31.10.2009 00:24 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Kódování textu

Mám za to, že Unicode je default.

Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)

31.10.2009 10:11 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

To neni tak úplně pravda.

Přesněji řečeno, to, co píšeš platí pro tvoje interní formáty, ne pro XML jako formát pro výměnu dokumentů.

Povinná implementace je tuším jen utf-8 a utf-16. Takže pokud použiješ iso nebo windows, nebo nějaké jiné úplně nestandardní, tak to nemusí přečíst aplikace na druhé straně.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

30.10.2009 23:41 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

To by mě taky zajímalo. Striktně vzato, i binární soustava je jen způsob kódování informace o číslu. Stejně jako česká abeceda (její grafická podoba, ani nemusím mluvit o reprezentaci pomoci bajtů) je kódování mluvené řeči.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

31.10.2009 21:47 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Pokud jde o mluvenou řeč, tak je to velmi ztrátové kódování... takové, které většinu informace ztratí a jen zlomek nechá :).

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

31.10.2009 10:05 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Nesmysl, utf-16 nemá kromě zabraného místa ve východních jazycích jedinou výhodu oproti utf-8.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

31.10.2009 13:30 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Kódování textu

To mi přijde jako dostatečně silná výhoda ;-)

Já to s tou denacifikací Slovenska myslel vážně.

31.10.2009 15:38 xurpha
Rozbalit Rozbalit vše Re: Kódování textu

No, nevím, kvůli pár debilním národům, které si za ta tisíceletí nedokázala vytvořit použitelnou abecedu? Všechny normální písma (latinka, azbuka, arabština, hebrejština) díky tomu, že používají jen málo pár znaků se vlezou do BMP a tím pádem i jejich kódování v UTF-8 nikdy nezabere víc, než by zabralo 2, nebo vícebytové kódování...

31.10.2009 16:38 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Oni mají jednotlivé komponenty (radikály) toho písma dobře definované. Debilní národy jsou jinde, pokud neumí implementovat chytřejší algoritmus na jejich skládání než "obšlehni to na obrazovku a posuň se, opakuj".

Mimochodem, ten chytřejší algoritmus fyzicky existuje, viděl jsem ho v nějakém čínském balíčku pro TeX. Nebo na starých Macích se používalo CangJie.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

31.10.2009 23:12 xurpha
Rozbalit Rozbalit vše Re: Kódování textu

Oni mají jednotlivé komponenty (radikály) toho písma dobře definované.

A co jako? System zapisu zustava debilni a zaostaly...

1.11.2009 00:10 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Proč? Protože není stejný jako český?

Neříkám, že je nejlepší možný, ale zatím to tu zní jen jako předsudek z neznalosti.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

1.11.2009 10:40 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Od člověka se zájmem maximálně o evropské jazyky, něco takového nemůžeš chtít. Na druhou stranu utf-8 mi přijde jako výborný kompromis, až na to, že se někdo může cítit uražen tím, že ty jeho znaky zabírají víc místa.

To je pomalu jak nadávat u češtiny, že máš nějaký cca 20% nárůst velikosti souborů oproti klasickým 8bit kódování. Dokud to neni několikanásobek, tak bych se tím vůbec netrápil :).

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

1.11.2009 13:43 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Narážím na kolegu xurpha, který se už minimálně dvakrát nechal slyšet, že systém psaní (pravděpodobně) dalekého východu je debilní a zaostalý, přitom zatím neuvedl jediný důvod.

A co se velikosti týče... Stejně je většina zpracovávaných dat netextová (různé cache, obrazy, zvuky, číselné údaje atd.), tak si myslím, že není nějaký výrazný rozdíl v tom, jestli se bude znak uchovávat pomocí jediného bajtu nebo rovnou dvaceti.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

1.11.2009 21:14 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

IMO záleží hodně na kontextu. Pokud jde o aplikaci pro zpracování textu, tak tenhle argument při jejím návrhu neobstojí.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

1.11.2009 23:42 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Pokud ta aplikace potřebuje rychle zjistit délku textu, tak by neobstálo ani UTF-8 (nebo jakékoli jiné kódování s variabilní šířkou znaku), přesto se běžně používá. Je to jen multiplikativní konstanta.

Pokud někomu záleží na velikosti, použije kompresi. Text se komprimuje velmi dobře, v tomto případě ani ne kvůli kódování, ale díky samotným vlastnostem lidského jazyka.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

2.11.2009 00:02 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

To už se pouštíme do prázdných spekulací, že :). Někdy se hodí formát s pevnou šířkou, jindy relativně efektivní utf-8, jindy nějaká šikovná komprese na jedné z uvedených variant. Těžko najdem obecně nejlepší variantu. Snad jen utf-16 u mě prohrává ve všech případech :).

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

2.11.2009 00:52 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Na tom se shodneme ;-)

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

2.11.2009 08:58 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

1.11.2009 13:33 Nicky726 | skóre: 56 | blog: Nicky726
Rozbalit Rozbalit vše Re: Kódování textu

Písma, kde znak představuje slovo, mají výhodu v tom, že se může na jeden znak namapovat několikerá "nářeční" výslovnost. Takhle se pomocí písma dorozumí například celá Čína, i když by si v mluvené řeči kvůli "nářečním" problémům vůbec nerozuměli.

V evropském prostředí s písmy, která reprezentují spíše zvukovou podobu, než vlastní význam, je sice výrazně menší množina znaků, které musí člověk umět, ale zato Němec nerozumí zápisu, který udělá Angličan, i když jsou po stránce příbuznosti na tom asi podobně jako některé národy v Číně.

Enjoy the detours. There you’ll find the things more important than what you want. (Hunter x Hunter)

1.11.2009 13:52 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Celá Čína se jedním písmem domluví díky tomu, že existuje prakticky jediná psaná forma jazyka. Něco jako celá Evropa by se "dopsala" mezi sebou, pokud by se jako jediná psaná forma učila třeba jenom němčina (tj. Češi by na papír psali "Ich möchte" když chtějí napsat "chci").

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

31.10.2009 01:33 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Kódování textu

Zrovna tenhle text není moc dobrý argument pro obhajobu současného zmatku kolem kódování. A z téhož článku cituji:

Almost everyone in their right mind will use an UTF-8 locale for now (unless some obsolete but important piece of software has other requirements), but nobody should be forced to do so, neither now, nor in the future. For, if something better or more suited to some environment comes along, it will then be easier to switch to it.

Autor na jedné straně tvrdí, že kdo nepoužívá UTF-8 locale, ten na tom možná není úplně dobře, pokud jde o rozum. Na druhé straně ostře vybízí k bezbřehé toleranci hraničící s otevřenou podporou totálního chaosu. Poněkud rozporuplný přístup k věci.

V době vzniku toho blogpostu jsem už sice měl UTF-8 locale, ale o pár měsíců dřív jsem ještě používal ISO-8859-2, protože kvůli některým programům (a rozhodně nebyly obsolete) to bylo nezbytné. A potíže s hlavou jsem neměl.

Refusing minimal locale support and encoding conversions, where possible and useful, and assuming instead everyone who wishes to partake in an exchange, to use the same locale and encoding, should not be an option, not if diversity has any value to you. And if that is not the case, I don't want to have anything to do with you or your programs.

Ve světě, kde žiju já, je situace taková: Drtivá většina uživatelů o takových věcech vůbec nerozhoduje a ani nedovede kvalifikovaně rozhodnout! 99% uživatelů netuší, jakým způsobem se ukládají jejich data a jak s tím souvisí texty. Chtějí pouze kompatibilitu. Problém tedy není v tom, že by někdo nutil uživatele, aby byli ve všem stejní. Někdy vidíme pravý opak. Microsoft je toho příkladem. Jeho kódování Windows-1250 andeb zmrzačené-latin-2 na dlouhou dobu zmrazilo pokrok v oblasti ukládání a sdílení textů ve všech jazycích kromě angličtiny.

Zatímco ASCII-assumption je zjevně něco zcela špatného, protože jde v podstatě o předpoklad existence jen dvou jazyků — latiny a angličtiny —, UTF-8-assumption mi přijde jako rozumný předpoklad všude tam, kde není možné kódování explicitně oznámit v metadatech nebo jiným vhodným způsobem. Jednoduše proto, že v dnešním světě neexistuje jazyk, kterému by UTF-8 působil problémy. Nebo snad existuje?

Jsou konvence, jejichž nedodržení vede k potížím. To pochopitelně neznamená, že by se z konvence měl stát zákon. Vznikla by totalita. (V tomto směru s autorem blogpostu souhlasím.) Neodpustím si ovšem jeden protipříklad pro ilustraci:

Kdybych měl dost prostředků, nic mi nebrání zkonstruovat auto, které se řídí gamepadem připojeným do USB portu na palubní desce. Když si ale půjčím pro mě dosud neznámé auto v půjčovně, můžu směle předpokládat, že bude mít volant a pedály. Autor odkazovaného blogpostu ovšem tvrdí, že to předpokládat nesmím a že musím být kdykoliv připraven začít se v přeplněných ulicích velkoměsta učit ovádat auto gamepadem. A to je nesmysl.

31.10.2009 01:36 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Kódování textu

Drobná oprava: Poznámka o Windows se měla týkat všech znakových sad Windows-xxxx, ne pouze té středoevropské.

31.10.2009 10:39 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Kódování textu

Zjevně jste nepochopil pointu článku.

UTF8 možná je v současné době použitelné, ale není to konečná. Vy, jako programátor, nikoliv jako uživatel, byste neměl předpokládat, že všechny texty v minulosti, současnosti a budoucnosti budou v UTF8, ale měl byste předpokládat, že budou v čemkoliv, a použít nějakou abstrakční vrstvu, která se vypořádá nejen se současně používanými kódy, ale bude i v budoucnu rozšiřitelná.

Navíc mám dojem, že si pletete Unicode a UTF8.

In Ada the typical infinite loop would normally be terminated by detonation.

31.10.2009 12:27 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Jednoduše proto, že v dnešním světě neexistuje jazyk, kterému by UTF-8 působil problémy. Nebo snad existuje?

Existuje :-) A nejsou to žádné jazyky na vymření, třeba čínština a japonština. To si jednou nějaká chytrá hlava kdysi řekla, že "vždyť to vypadá málem stejně" a jednoduše se sjednotily některé varianty znaků. Takže je v Unicode jeden kód pro dva (graficky a foneticky, někdy i významově) různé znaky.

Převedeme-li to, co se stalo s kódováním těmto asiatům do našich zeměpisných šířek, tak je to jako kdyby byl v Unicode jediný kód pro znaky "ů" a "ô" (a klidně i pro další páry, co třeba "m" a "n", taky téměř stejné). Volbou vhodného fontu (slovenský font, český font, font s m, ...) by se rozlišovalo, který z těchto znaků se zobrazí. Kdo by proboha mohl mít tu drzost takový systém nazývat konečným řešením!?

A to jsem ještě nezačal uvádět druhou vlnu zjednodušování čínských znaků (která co jsem se naposledy koukal chybí téměř celá), ten korejský nesmysl co je zaveden, ty chyby co tam zavlekla nepozornost, systematických duplicit atd. atd.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

31.10.2009 15:34 xurpha
Rozbalit Rozbalit vše Re: Kódování textu

a) naprosto nesmyslně směšujete UTF-8 s unicodem. UTF-8 význam žádných znaků nedefinuje, je to čistě transportní kódování,

b) od toho se unicode vyvíjí a má pravidla, jak řešit podobné problémy, aby v případě potřeby bylo možné v další verzi unicode sjednat nápravu (jak se už mnohokrát stalo)...

1.11.2009 17:09 michal00 | skóre: 14 | blog: OpenStreetMap
Rozbalit Rozbalit vše Re: Kódování textu

Klingončina nebola zahrnutá do unicode, takže v budúcnosti snáď vznikne niečo širšie...

3.11.2009 22:58 Tomas
Rozbalit Rozbalit vše Re: Kódování textu

Prosim, priste si aspon jednou v zivote ty windowsy pustte, aby jste vedel o cem pisete. Protoze to co pisete v tretim odstavci, je nesmysl. Od zacatku do konce..

- jediny rozdil ms X linux je v tom, ze zatimco s linuxem (resp. v distribucich) dostavate vsechny jazykove balicky naraz. ve svete windows defaulnte dostavate jednu vybranou (to je ta verze, kterou koupite). dalsi jazykove balicky si muzete dostahovat z win update na jeden, dva kliknuti. binarky programu jsou stejne, jedine co balicky obsahuji a do systemu dokopiruji, jsou prislusne jazykove resourcy (texty atd) - cili princip stejny jako v linuxu

- pokud mate v systemu prislusne jazykove balicky, tak muze soucasne pracovat samozrejme X uzivatelu (i soucasne) a kazdy muze mit jine prostredi (jeden cinstinu, jeden japonstinu, dalsi anglictinu a dalsi cestinu). to se SAMOZREJME tyka jak klavesnice a narodnich zvyklosti (datum, cas , format cisla apod), tak veskerych textu, napoved apod.

3.11.2009 23:15 Jan Zahornadsky | skóre: 22 | blog: hans_blog
Rozbalit Rozbalit vše Re: Kódování textu

Hehe, souhlas, navíc je ten překlad aspoň kompletní a za něco stojí.

Akorát si myslím, že aby to co tu Tomas napsal platilo, je potřeba mít multiple language version nebo jak se tomu nadává. Některé levnější distribuce Windows to totiž tuším nepovolují.

Actually, I was half an hour into the pointer scripting documentation when she got dressed and left.

3.11.2009 23:34 Tomas
Rozbalit Rozbalit vše Re: Kódování textu

ano, samozrejme. u klientskych edici windows se to tyka "vyssich" edici (nicmene nizsi verze jsou identicke, jen je prislusne GUI pro nastaveni jazykove verze skryto, ale da se to tam (proti licenci) dostat i u nich). u serverovych edici windows je to soucast vsech edici.

ve vetsi mire se jazykove balicky a multilanguage prostredi objevuji a pouzivaji u win vista, win 7, win server 2008 a win server 2008. nicmene existuji i multijazykove verze starsich systemu (i kdyz tam to bylo mnohem mene obvykle).

ostatne, i u "prehistorickych" windows xp existuje multijazykova verze - pouzivala ji edice windows media center. taktez u win 2000 byla udajne multijazykova verze (ale s tou jsem se nikdy nesetkal). u starsich systemu (win 95, win 98 atd) byly jazykove resourcy opravdu "natvrdo" v binarkach.

4.11.2009 23:47 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Kódování textu

Inu dobrá, takže Microsoft se s desetiletým zpožděním dohrabal k podpoře pro lokalizaci, která byla v linuxových distribucích už dávno. Well done.

Nicméně tato lokalizace je (předpokládám) k dispozici jenom za příplatek a jenom u některých verzí. Ostatní verze mají antifeature. Což je skoro totéž, jako by tam nebyla.

Mimochodem, znamená to, že když spustím jeden počítač s Windows a bude s ním přes RDP pracovat 10 uživatelů paralelně, bude mít každý z nich svoji lokalizaci? Mám takové tušení, že v tom zase bude háček...

5.11.2009 14:01 Tomas
Rozbalit Rozbalit vše Re: Kódování textu

Za kazdou cenu budete prudit?

K dispozici jsou samozrejme VSECHNY jazykove balicky, a to ZDARMA. U serverovych windows funguji na jakekoli edici, u "klientskych" na vyssich edicich (u nizsich se daji pouzit neoficialne).

A co se terminal serveru a RDP tyce, tak SAMOZREJME kazdy muze mit svuj vlastni jazyk.

5.11.2009 20:48 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

Proc tak agresivni ton?

A... ZDARMA? SAMOZREJME? VSECHNY?.... a co mi jeste nabidnete, ze muzu vyhrat auto?

Prijde mi, ze ted opravdu jen prudite.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

5.11.2009 20:51 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Kódování textu

A tedka prozmenu k veci... lokalizace neni pouze jazyk, ale treba i casova zona. Lze alespon nekterou verzi a variantu windows pouzivat vzdalene s ruznymi casovymi zonami?

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

3.11.2009 23:38 Tomas
Rozbalit Rozbalit vše Re: Kódování textu

a jeste doplnim - duvod, proc jsou jazykove balicky samostatne, a nejsou soucasti systemu, je jednoduchy - proc mit na instalacnim DVD o giga vic obsazeneho mista (a nasledne na PC o vic nez dve giga obsazeneho mista), kdyz 99% lidi za cely zivot pouzije jeden jediny jazyk (a to svuj)...

4.11.2009 23:55 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Kódování textu

Rád věřím, že na nějakých Windows Ultra-Hyper-Server-Stojím-Sto-Litrů to asi půjde, ale nějaká Vista, což jsou zatím poslední Windows, které jsem viděl, se ke změně locale moc neměla. Asi to nebyla edice Hyper-Kdesicosi, nevím...

To je podobné, jako když se se mnou tuhle někdo hádal, že 64-bitová verze Windows podporuje víc než 8 GB RAM. Skutečně? Vista Home Basic rozhodně ne. :-D

31.10.2009 10:30 hajma | skóre: 27 | blog: hajma | Říčany
Rozbalit Rozbalit vše Re: Kódování textu

Po tomhle mi už nezbývá, než doporučit odstranit diakritiku z názvů úplně.

Ja bych naopak doporucil se s tim naucit zit. Protoze se ti jinak stane, ze musis neco udelat na stroji, kde jsou nazvy obsahujici pomalu i konce radek, a kdyz nevis co s tim, tak koncis.

21 promarněných znaků

16.1.2020 15:10 Martin Fiala
Rozbalit Rozbalit vše Re: Kódování textu

Pro převod znakových sad existuje online nástroj na adrese http://retezce.jednoduse.cz/

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje

Kódování textu

Obsah

Co je to kódování textu?

Konce řádků

Automatická detekce kódování a Enca

iconv

GNU Recode

cstocs

convmv

Závěr

Nejčtenější články posledního měsíce

Nejkomentovanější články posledního měsíce

Související články

Další články z této rubriky

Hodnocení: 100 %

Komentáře