Unicode: většinou rozbité

AbcLinuxu:/ Blogy / Paskmův blog / Plané filozofování / Unicode: většinou rozbité

Štítky: C, C++, Java, programování, software

Unicode: většinou rozbité

2.2.2006 13:21 | Přečteno: 2427× | Plané filozofování | poslední úprava: 2.2.2006 15:27

V diskuzi k mému postu o GTKMM jsme narazili na Unicode. Trochu jsem o tom četl na wikipedii a narazil na několik (pro mě) překvapení a zrad.

Unicode z rychlíku

Jen pár základních pojmů pro nováčky. Unicode je norma, který každému znaku (abstraktní minimální jednotka textu) přiřazuje jedno číslo (code-point). Tato čísla potřebujeme obvykle nějak nacpat do počítačů, k tomu slouží různá kódování, která mají různé výhody a nevýhody (paměťová úspornos versus jednoduchost zpracování).

Název	Počet bajtů na znak	Výhoda	Nevýhoda
utf-8	1 - 4(6)	Zpětně kompatibilní s ASCII.	Netriviální práce s řetězci
utf-16	2 - 4		Netriviální práce s řetězci
ucs-2	2	Jednoduchá práce s řetězci.	Nepokrývá všechny znaku Unicode.
utf-32, ucs-4	4	Jednoduchá práce s řetězci.	Paměťově žřavé.

Další informace na wikipedii.

Kámen úrazu

Norma Unicode 1.0 byla navržena jako šestnáctibitová. 64k znaků se zdálo hodně a svět vypadal růžově. Proto v novějších programovacích jazycích (jako je Java) má datový typ pro znak (char) 16 bitů. A řetězce používaly kódování ucs-2. Takže každý znak zabíral únosné 2 bajty a práce s řetězci byla stejně efektivní jako za 8bitových časů. Stejně tak je šestnáctibitový typ wchar_t v C++.

Jenže pak přišlo Unicode 2.0 s codepointy za hranicí šestnácti bitů. Současná norma verze 4.1 definuje přes 90 tisíc znaků. Za hranicí šestnácti bitů jsou většinou mrtvé jazyky jako gótština. Ale taky jsou tam různé vlastní jména z čínštiny a japonštiny, takže třeba software pro tamější státní správy musí umět s takovými znaky korektně pracovat. (Představa, že jsem číňan a nějak se jmenuju (a mám svůj znak) a že mé jméno dostane svůj codepoint, je velmi zábavná.)

Hackujeme

Zavedení znaků za hranicí 16ti bitů je pro šestnáctibitový char z Javy pohroma. Řetězce kódované ucs-2 nepokrývají celé unicode a neumožňují mimo jiné tvorbu softu pro čínskou Stranu (cenzurování internetu, evidence politických vězňů a další výnosné džoby).

Vyřešilo se to hackem. Řetězce se prohlásily jako kódované utf-16. To ale znamená, že je Java rozbitá. Můžu dostat řetězec, který správně nerozeberu na samostatné znaky - prostě proto, že jeden znak může zabírat více javovských charů. Tedy lépe řečeno je rozbitá jistá třída javovských programů, které bláhově spoléhají, že jeden char se rovná jeden znak.

V Javě 5 se do tříd Character a String zahrnula podpora pro codepointy - což jsou 32bitové integery (více zde). Stejnému problému čelí i .net - tam zavedli třídu StringInfo.

Nutno podotknout, že v klasických prostředích vystavěných nad plain C (například Gnome) se kvůli zpětné kompatibilitě prosadilo kódování utf-8. Nikdy si tam nehráli na to, že všechny znaky jsou stejně dlouhé a proto to nikdy rozbité neměli.

Jak je to správně

Dovolím si tvrdit, že 16bitový char byl velký omyl. Správný char má mít 32 bitů a zvládat celé Unicode. Samozřejmě řetězce nemusí být kódovány v ucs-4. Vnitřně to může být klidně utf-8 nebo utf-16 (pro asijské jazyky), ale navenek se pořádný řetězec musí tvářit jako pole 32bitových charů.

Hodnocení: 83 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (2) ? , Tisk

Vložit další komentář

2.2.2006 13:34 zde | skóre: 9 | blog: Linuch | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

<ironie> Teď je na zemi miliarda číňanů, každý má logicky vlastní jméno. UCS32 pokryje pouze čtyři současné čínské lidové republiky, takže za 3 generace má UCS32 problém, a budeme potřebovat Unicode 5.0, které bude 64-bitové. </ironie>

A rozbitá je nejen JAVA, ale jednou jsem debugoval startup win32 aplikací a parsování environmentu, a ten kód jednoznačně pracuje s UCS16, nikoliv s UTF16. Takže rozbité jsou i Windows, a najít a opravit to ve všech knihovnách bude docela záhul.

Jinak k čemu Unicode, když máme cs_CZ.ISO8859-2?

Táto, ty de byl? V práci, já debil.

2.2.2006 13:37 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Správné označení je UCS-2 resp. UCS-4, ne UCS16 resp. UCS32.

2.2.2006 13:41 Mikos | skóre: 34 | blog: Jaderný blog | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Protože Unicode je univerzální, to je jeho obrovská výhoda oproti různým národním kódováním. Sám ještě používám bohužel ISO-8859-2, ale to jen pro to že jsem na něm v Linuxu začínal a jsem líný převádět všechny názvy souborů, atp. Ale do budoucna přechod plánuju, protože Unicode (tedy konkrétně mam na mysli UTF-8) je ta _jediná_správná_cesta_ :-)

CETERUM CENSEO DRM ESSE DELENDAM Ostatně soudím, že DRM musí být zničeno!

2.2.2006 13:49 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jinak k čemu Unicode, když máme cs_CZ.ISO8859-2?

protoze mame taky bohuzel jeste cp1250 :/

2.2.2006 15:42 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jinak k čemu Unicode, když máme cs_CZ.ISO8859-2?

třeba protože ISO-8859-2 (nikoliv "cs_CZ.ISO8859-2") neobsahuje české uvozovky (a spoustu jiných užitečných znaků)?

2.2.2006 15:44 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Vždycky mne hrozně pobavilo, když jsem tohle četl jako argument, proč používat Windows-1250 místo ISO-8859-2… :-)

2.2.2006 16:38 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

jenže ISO-8859-2 a Unicode mají proti Windows-1250 každé jednu obrovskou výhodu - ISO-8859-2 a ISO-10646 ;-)

mimochodem, co se argumentace týče, neříkáte skoro totéž?

2.2.2006 16:43 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jistě, říkám. Jako argument pro UTF-8 (Unicode) proti ISO-8859-2 je to zcela v pořádku. Směšné mi to připadá jen v situaci, kdy tím někdo chce zdůvodnit, proč používat Windows-1250 místo ISO-8859-2. Což už jsem bohužel několikrát viděl.

2.2.2006 16:25 zde | skóre: 9 | blog: Linuch | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Ale obsahuje, stačí napsat dvě čárky za sebou: ,,takhle''.

Táto, ty de byl? V práci, já debil.

2.2.2006 16:39 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

kdybys za tu prasárnu aspoň napsal smajlík ...

2.2.2006 16:41 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jasně, nula a jednička jsou taky zbytečné, vrátíme se do pravěku a budeme používat "l" a "O"; a místo kulatých závorek budeme psát lomítka, vždyť to dříve tak pěkně šlo…

2.2.2006 17:04 zde | skóre: 9 | blog: Linuch | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

U české dvouhlásky ,,ch'' vám identická ,,prasárna'' nevadí?

Táto, ty de byl? V práci, já debil.

2.2.2006 17:11 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Proč? Je to jedna hláska (nikoli dvouhláska, to je třeba au), která se v psané formě píše dvěma písmeny. Tak tomu je i u rukou psaného textu, na tom počítače nic nezměnily. Jako prasárna mi spíše připadá výmysl jazykovědců, že se máme tvářit, jako by to jedno písmeno bylo.

2.2.2006 19:58 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jako prasárna mi spíše připadá výmysl jazykovědců, že se máme tvářit, jako by to jedno písmeno bylo.

Je "ů" jedno pismeno? (uo > ů), je "ť" jedno písmeno? (tj > ť) atd. CH je v cestine "jedno pismeno", (viz zvlastni poradi v abecede), tak se to zkratka vyvinulo. Spis me prekvapuje, ze "ch" tak vybocuje z rady ostatnich ceskych "sprezek", taky by se to mohlo psat treba jako Ĥ nebo jako Ħ

2.2.2006 20:36 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

zajímavé, že například německy mluvící takhle neblbnou, tedy aspoň ještě jsem neviděl psát třeba "SCHindlerův seznam" (SCHindlers Liste), přitom německé "sch" je tentýž případ, jako české "ch" - tedy též jedna hláska napsaná více písmeny, nikoliv jedno písmeno ...

2.2.2006 20:45 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

a což teprv vlastně anglicky třeba CHarlie :-)

jinak by mě ještě zajímalo, když hlásku "ch" chceš brát jako jeden znak, jak potom chceš rozdělit na dva znaky písmeno "x", které se vyslovuje "ks"? 8~)

2.2.2006 21:27 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

zajímavé, že například německy mluvící takhle neblbnou, tedy aspoň ještě jsem neviděl psát třeba "SCHindlerův seznam"

Myslim ze se bavime o tom, ze pro cestinu je CH (Ch, ch) jedno pismeno napr. v tom smyslu, ze ma sve vlastni misto v abecede apod. tj. se chova jako jeden nedilny znak, nikoliv jako sprezka dvou pismen, ktere jsou jinak v cestine nahrazeny extra znaky: hacky, krouzkem. Dulezite je to v IT prave pro automaticka razeni podle abecedy.

V nemcine nebo anglictine se naopak "sch" radi abecedne jako tri za sebou nasledujici pismena "s-c-h", to ale souvisi s tim, ze jejich pravopis tak tesne nenasleduje fonemy extra znackami.

Jestli je to prakticke nebo neni, o tom nema moc cenu spekulovat, protoze to tak zkratka je. Totez byly diskuse na tema, proc psat "č", kdyz bysme mohli psat "cz" a zbavit se tak potizi s diakritikou (kdyz computery zacinaly). No, taky se to neujalo :P

Co se tyce psani, ono se snad ani v cestine nepise: CHleba, ale Chleba, protoze velke "ch" ma podobu "Ch", takze tady ten priklad s nemcinou moc nechapu ;)

2.2.2006 22:10 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Myslim ze se bavime o tom, ze pro cestinu je CH (Ch, ch) jedno pismeno napr. v tom smyslu, ze ma sve vlastni misto v abecede apod. tj. se chova jako jeden nedilny znak,

o čem se bavíme - no, začlo to s těma uvozovkama ... "ch" se nechová jako jeden znak, nýbrž jako pevně svázaná (nedílná) dvojice znaků; podívej se na to z hlediska sazby, "ch" resp. "Ch" se nijak neliší od za sebou jdoucích "c" a "h" resp. "C" a "h", kdežto ty dolní uvozovky se od dvou čárek liší značně

Co se tyce psani, ono se snad ani v cestine nepise: CHleba, ale Chleba, protoze velke "ch" ma podobu "Ch", takze tady ten priklad s nemcinou moc nechapu ;)

ale právěže píše - přinejmenším to tak ("CHleba") píšou ti méně samostaně uvažující absolventi kursu psaní na stroji na jednom nejmenovaném gymnasiu ...

2.2.2006 20:39 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

2.2.2006 21:17 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Až se tak bude psát, bude to jedno písmeno. Teď není. To řazení je jen důsledkem toho nesmyslu - mimo jiné je to jeden z důvodů, proč je řazení podle normy nealgoritmizovatelné.

2.2.2006 16:37 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

třeba protože ISO-8859-2 (nikoliv "cs_CZ.ISO8859-2") neobsahuje české uvozovky (a spoustu jiných užitečných znaků)?

Tak treba ja mam v CMS implementovany prekladac, ktery ceske uvozovky a spoustu dalsich uzitecnych znaku automaticky prevadi na HTML entity...

No jinak ale jsem coby polyglot vsemi deseti pro UTF-8, zvlast kdyz jsem se ted presvedcil, ze to funguje i pro lidi s Win98 (jak tu lidi tvrdi). Clovek nikdy nevi, kdy bude muset zaradit "cinskou" stranku :)))

2.2.2006 16:40 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Tak treba ja mam v CMS implementovany prekladac, ktery ceske uvozovky a spoustu dalsich uzitecnych znaku automaticky prevadi na HTML entity...

proč?

2.2.2006 13:36 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

Stejně tak je šestnáctibitový typ wchar_t v C++.

Ne nutně. Já ho mám 32-bitový.

Zavedení znaků za hranicí 16ti bitů je pro šestnáctibytový char z Javy pohroma.

Má být "šestnáctibitový".

Samozřejmě řetězce nemusí být kódovány v ucs-4. Vnitřně to může být klidně utf-8 nebo utf-16 (pro asijské jazyky), ale navenek se pořádný řetězec musí tvářit jako pole 32bitových charů.

Tady by to asi chtělo vymezit, co přesně myslíte termíny vnitřně a navenek. Praxe (aspoň v případě C/C++) je totiž spíš taková, že interně program pracuje s widechary a widestringy, ale s okolím komunikuje v multibyte kódováních (obvykle UTF-8).

2.2.2006 15:36 paskma | skóre: 13 | blog: Paskmův blog
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Hmm, tak jsem si napsal program

int main()
{
        cout << sizeof(wchar_t) << endl;
}

A vrací to 4. Čili máte pravdu. Ono ty typy v C++ jsou takové pružné.

Ad vnitřně a navenek. Já mluvím jen optimalizaci na místo v paměti. Pokud C++ program pracuje s poli wchar_t, pak je to naprosto v pohodě, ale žere to dost paměti. Utf-16 pak dost uspoří. Ale navenek (v programu) z toho musí pořád lézt ty wchar_t.

Jinak "navenek" - jako výměna dat mezi programy, ukládání na disk atd, tam je asi dobré používat utf-8. Alespoň myslím, že takový je dnešní zvyk.

2.2.2006 13:49 Goffix | skóre: 25 | blog: Powered by ArchLinux | Hradec Králové
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

Jestli se můžu zeptat. Teď dělám nový web, tak by mě zajímalo v čem tkví výhody a nevýhody použití kódování UTF-8 oproti ISO8859-2? Co jsem zatím četl, tak web s UTF-8 má větší velikost stránek. Ale hodně webů používá právě UTF-8, takže tam nějaká větší výhoda být musí.

PS: Jedná se o český web. Čínská vlastní jména nepotřebuju ;-)

2.2.2006 13:54 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

I na českém webu občas potřebujete napsat slovo azbukou, použít řecké písmeno, cedillu nebo nějaký symbol (který v ISO-8859-2 není). Samozřejmě, v případě webu se to dá obejít entitou, ale přeci jen je lepší, když to jde přirozenou cestou.

2.2.2006 13:58 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

v čem tkví výhody a nevýhody použití kódování UTF-8 oproti ISO8859-2?

Z mych zkusenosti, pokud tam nebudou exoticke znaky (azbuka, hebrejstina apod.) anebo to neni zrovna web o Linuxu, tak nejmene problemu bohuzel zatim dela asi kodovani win1250 - z toho duvodu, ze tohle ma vetsina surfaru nastaveno defaultne v prestarlem kramu IE a normalni browsery si s tim poradi bez potizi. Take spousta primarnich nastaveni databazi, aplikaci (napr. pocesteni cms apod.) s tim de facto pocita jako s vychozim stavem :/

Tak napr. mam problemy s jednim tematem, ktere navzdory hlavicce s ISO (vsechny ostatni browsery zadne problemy nemaji) zcela nahodne generuje v IE spatne kodovani (sem tam ISO...-1, sem tam win1250... a to v ruzne dny u tech samych stranek!!!) a nemuzu zaboha prijit na to, proc. Dost drsne, kdyz porad vetsina webaru drti IE...

Nekde jsem cetl, ze Win98 nepodporuje zobrazovani v UTF-8 (ted ale nevim, jestli se to tyka i novejsich browseru v tomto systemu), a kupodivu spousta "obycejnych" lidi porad ma Win98. Takze dat UTF-8 kodovani na web, kde pocitas s takovymi navstevniky, je mozna risk. Kdyz mi tohle nekdo vyvrati, budu jen rad :)

2.2.2006 17:16 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

IE pod Win98 nemá minimálně od pětkové verze (a mám pocit že to platí i o čtyřkové, jen na ní už netestuju) s UTF-8 problémy se zobrazováním. Narazil jsem na problémy při tisku, tam byly často místo znaků s diakritikou čtverečky.

FF pod Win9x je v tomto směru v pohodě.

2.2.2006 14:01 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Dokud tam máš jen češtinu, tak je to jedno, ale jakmile tam začneš chtít nějaký další jazyk, tak máš problém. Další důvod je ten, že jakmile budeš používat utf8, tak dobudoucna můžeš být naprosto v klidu. No a ten nejzásadnější důvod je ten, že pokud systém webmastera a jeho editor funguje s utf8, tak je zbytečná námaha používat něco jiného...

Hello world ! Segmentation fault (core dumped)

2.2.2006 14:05 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

jakmile budeš používat utf8, tak dobudoucna můžeš být naprosto v klidu

Do budoucna ano, ale co dnesek s Win98?

2.2.2006 14:08 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Windows 98 s tím problémy nemají, těm je to celkem jedno. Problém s tím má (IIRC) MSIE 5.0.

2.2.2006 14:12 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Takze clovek s Win98, ktery pouziva IE 6 nebo nejaky kvalitni browser urcite UTF-8 uvidi? To je docela fajn zprava, protoze tech MSIE 5 uz zas tolik neni... Omlouvam se za blby dotaz, Win98 jsem nikdy nevlastnil ani nepouzival.

2.2.2006 14:13 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

V MSIE 6.0, Firefoxu ani Opeře jsem s tím neměl problém. MSIE 5.5 jsem nezkoušel.

2.2.2006 14:23 Goffix | skóre: 25 | blog: Powered by ArchLinux | Hradec Králové
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

MSIE 6.0 ve Wine mi špatně zobrazuje diakritiku. Je tam nastaveno (ve Wine) system Win98, myslíte se že to souvísí? Pod XP prý diakritika šlape.

2.2.2006 14:28 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Nevím, pod Wine jsem MSIE nezkoušel. Ale podle toho, co se zobrazuje, by se možná dalo odhadnout, jestli je problém s kódováním nebo s fontem.

2.2.2006 19:02 Goffix | skóre: 25 | blog: Powered by ArchLinux | Hradec Králové
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

No místo diakritiky mi to zobrazuje čtverečky. Fonty nainstalovaný (zakladní windows) všechny mám (ve Winu) a font-family používám Serif. Web jsem začal před týdnem tvořit (dost grafiky) a ve všech moderních browserech v pohodě. Nainstalil jsem IE a musel jsem hooodně upravovat ;-)

Teď to jede ve všem, ale fonty v IE6 ve Wine jsou větší než mám nastaveno a místo diakritiky ty čtverečky. Netuším kde je chyba.

2.2.2006 19:06 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Pokud aplikace nerozumí UTF-8 jako takovému, většinou se to projevuje tím, že místo českých písmen máte dvojice znaků (znakĹŻ), odpovídajících vícebytové sekvenci v uhodnutém kódování.

2.2.2006 19:10 Goffix | skóre: 25 | blog: Powered by ArchLinux | Hradec Králové
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Aha, to je dobrý vědět ;-)

No já tam mám čtverečky :-)

Hlavně že na woknousech to fachčí tak jak má ;-)

2.2.2006 19:15 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jestli jednomu písmenu s háčkem odpovídá jeden čtvereček, hledal bych problém spíš ve fontech nebo něčem souvisejícím.

2.2.2006 19:39 Goffix | skóre: 25 | blog: Powered by ArchLinux | Hradec Králové
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jojo, přesně tak... Jeden háček = jeden čtvereček... Font se mi nezdá. Přesněji řečeno mám to nainstalovaný v Crossoveru a ten se o to si myslím umí postarat. Fonty tam jsou určitě všechny a když mám stránku v ISO8859-2, tak velikost fontů i diakritika fungují správně. Chyba musí být opravdu někde v tom UTF-8. Však tu někdo psal, že na Win98+IE to nebere. Tak bych se ani nedivil, kdyby to tohle jen potvrzovalo.

Ještě než jsem tohle odeslal, tak mi došlo, že jsem ani nezkoumal konfiguráky Crossoveru. Juknul jsem tam, našel položku encoding nastavenou na ISO-8859-2, ale změna nepomohla.. No ono tam bylo napsáno, že je to týká něčeho kolem souborů.

2.2.2006 21:42 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Lidi, neblbněte, když už to chcete zkoušet, rozhodně není směrodatné, jak se to chová pod Wine. Abych učinil spekulacím přítrž, tady máte screenshot jedné stránky mého webu otevřeného v MSIE5. Grafika je sice rozpadlá - ladit to pro takovou vykopávku, pro kterou už nevychází ani patche se, už fakt odmítám - ale písmenka jsou všechny jak mají být. Kódováno je to samozřejmě všechno v UTF-8.

MSIE4 už tady nemám, ale pokud si dobře pamatuju, také neměl problémy. Mám pocit, že dokonce i MSIE3 se s touhle kódovou stránkou chytal...

Určitě byste měli čtverečky místo písmen s diakritikou, kdybyste pod Win9x chtěli tyhle stránky vytisknout, to mám ozkoušené, ale zobrazení na monitoru je v pořádku. A FF nemá problémy ani s tím tiskem, to mám také ozkoušeno.

2.2.2006 21:48 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jo, koukám, že jsem to tam nenapsal, sice to snad vyplývá z textu, ale pro jistotu - ten screenshot je pořízený pod českými Win98 Second Edition spuštěnými pod VMWare. Pokud si dobře pamatuju, neinstaloval jsem tam kromě driverů pro virtuální stroj žádné další patche, mělo by to být ve stavu, v jakém je systém těsně po instalaci.

2.2.2006 22:04 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

...a omlouvám se za chyby pravopisné i stylistické, přečetl jsem si to po sobě pořádně a stydím se. :-(

2.2.2006 14:32 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Mám stránky v UTF-8 a prohlížel jsem je v IE 5.0, 5.5 SP2, 6.0 a všude je to dobrý... Skutečně nikdy jsem neměl problém s kódováním v IE.

PS: Když jsem si před nedávnem udělal ráno čas a doladil stránky aby to jelo i v IE stejně jako jinde, skákal jsem 2 metry do vzduchu.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

2.2.2006 15:04 maxw
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

největší výhoda tkví v tom, že VŠECHNY aplikace, které pracují s XML, musí umět UTF-8 (UTF-16). Ostatní kódování navíc jsou bonus. Tady nejde jen o internetové prohlížeče - pokud máš web v XHTML, lze u těchto stránek využít nejrůznější XML-based aplikace (formátovače, parsery, prohledávače obsahu, konvertory a další).

2.2.2006 15:48 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

offtopic:

Co jsem zatím četl, tak web s UTF-8 má větší velikost stránek.

- to je teda fakt podstatná vada :-D

kolik tam chceš mít bajtů textu a kolik obrázků a jinejch srandiček? a což takhle posílat stránky komprimovaně, to se potom ušetří kolik bitíků, když se použije ISO-8859-2 místo UTF-8? ;-)

2.2.2006 19:09 Goffix | skóre: 25 | blog: Powered by ArchLinux | Hradec Králové
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

No né, tak já netuším o kolik se ta velikost zvedne. Došlo mi, že asi jen pár kilo. Spíš mě prostě zajímalo, jestli bych to teda měl pokračovat dělat v UTF-8 a nebo jestli to má nějaký zápory. Dělám to v XHTML+PHP+MYSQL. Editor používám Bluefish (UTF-8 zvláda v poho). Tak jestli třeba v PHP nejsou nějaké omezení, nebo naopak vychytávky přímo pro tohle kódování.

Co čtu, tak to asi nechám v UTF-8. Díky všem.

2.2.2006 19:47 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

jak už naznačil maxw, pokud je to v XHTML, není co řešit ...

"... Such a declaration is required when the character encoding of the document is other than the default UTF-8 or UTF-16 and no encoding was determined by a higher-level protocol. ..."

"Remember, however, that when the XML declaration is not included in a document, the document can only use the default character encodings UTF-8 or UTF-16."

což vychází z "All XML processors must accept the UTF-8 and UTF-16 encodings"

co se týče PHP, doporučuju věnovat pozornost mbstring (pokud si soudruzi vývojáři nevymysleli zas něco nového ...)

co se týče MySQL ... Unicode support

2.2.2006 23:51 Jiří (BoodOk) Kadeřávek | skóre: 19 | blog: BoodOk | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

LOWER('škoda') mi na mysql-server-5.0 jak z testingu (Debian), tak z unstable 5.0.17 (nebo 18) vraci pri pouziti UTF8 vzdy prazdny string. Nezavisle na character setu databaze nebo tabulky. Nedokazal jsem to nijak obejit. S UTF8 maji problem nektere browsery pri pouziti XMLHTTPRequest (Konqueror i Safari spatne pocitaji pri pouziti metody POST delku UTF8 stringu, takze se Vam posle jen 'pulka' postu). Za 20 let co delam do pocitacu jsem s problemem kodovani stravil hezkou radku dnu, tydnu. Nejlepsi kodovani cestiny je zadne, Hus chudak nevedel co cini, mel si vystacit s latinkou. UTF8 je slibne, ale zajima vsechny krom Commonwealthu (coz je problem). Na druhou stranu budme radi, ze nepiseme cinsky.

Věda má v sobě určitou zpupnost, že čím dokonalejší techniku vyvineme, čím více se dozvíme, tím lepší budou naše životy.

3.2.2006 12:01 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

LOWER('škoda') mi na mysql-server-5.0 jak z testingu (Debian), tak z unstable 5.0.17 (nebo 18) vraci pri pouziti UTF8 vzdy prazdny string. Nezavisle na character setu databaze nebo tabulky. Nedokazal jsem to nijak obejit.

hmm ... co na to vývojáři?

S UTF8 maji problem nektere browsery pri pouziti XMLHTTPRequest (Konqueror i Safari spatne pocitaji pri pouziti metody POST delku UTF8 stringu, takze se Vam posle jen 'pulka' postu).

jedu na UTF8, používám téměř výhradně Konqueror, a nic takového jsem nepozoroval - tedy ovšem nevím, jestli jsem někdy použil "XMLHTTPRequest" (co to?) ... byl by testcase, je nahlášený bug?

6.2.2006 17:55 Jiří (BoodOk) Kadeřávek | skóre: 19 | blog: BoodOk | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Na to prvni nevim co vyvojari, na to druhe jsem nahlasil bug (hledat ho ted nebudu).

Věda má v sobě určitou zpupnost, že čím dokonalejší techniku vyvineme, čím více se dozvíme, tím lepší budou naše životy.

6.2.2006 17:56 Jiří (BoodOk) Kadeřávek | skóre: 19 | blog: BoodOk | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

http://bugs.kde.org/show_bug.cgi?id=119391

Věda má v sobě určitou zpupnost, že čím dokonalejší techniku vyvineme, čím více se dozvíme, tím lepší budou naše životy.

7.2.2006 11:20 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

aha, už vidím wo co go ... nu, teď už jen těšit se, až to spraví ;-)

2.2.2006 13:49 VícNežNic | skóre: 42 | blog: Spáleniště | Ne dost daleko
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

To mi chcete říct, že v Unicode jsou takový kraviny jako čínská jména a přitom ještě ani nebyli schopni schválit třeba tengwar? Ať s tím táhnou do pr… :-(

Copak toho není dost?

2.2.2006 14:04 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

takový kraviny jako čínská jména

dej si bacha, aby si to nekdo nezapsal a za 30 let te pak nenapraskal na Vrchni velitelstvi evropskeho poloostrova - uradovna provincie Tschen-skou (byvala Ceska republika) :P

2.2.2006 14:33 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

ROFLMAO

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

2.2.2006 14:24 Václav HFechs Švirga | skóre: 26 | blog: HF | Kopřivnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Tengwar ruuulez! A jak je to druhe, cingwar? :-)

Baník pyčo!

2.2.2006 14:36 VícNežNic | skóre: 42 | blog: Spáleniště | Ne dost daleko
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

? No, každopádně, návrhy na začlenění obojího už existují docela dlouho.

Copak toho není dost?

3.2.2006 02:10 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Klingoni se taky snažili a prd... :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

3.2.2006 10:47 VícNežNic | skóre: 42 | blog: Spáleniště | Ne dost daleko
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jo. Nevím kdo jsou ti lidé, co říkají, že všechno lze řešit bez násilí a mrtvol, ale že mírně řečeno nemají pravdu, to vím zcela jistě.

Copak toho není dost?

2.2.2006 13:54 podlesh | skóre: 38 | Freiburg im Breisgau
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

Zas tak strašně rozbité to není, protože l18n i10n knihovny s tím vesměs počítají. Horší je to při zobrazování, kde je ale stejně primární problém s tím zda vůbec ty glyphy jsou k dispozici (vesměs nejsou).

Takže rozbité jsou hlavně programy které pracují s jednotlivými znaky a předpokládají že je to codepoint. To je ovšem velmi vzácné a týká se právě locale-specifických věcí. Právě na tomto faktu stojí popularita UTF-8.

A samozřejmě jsou rozbité programy, které "optimalizují" a místo char používají rovnou byte :-)

2.2.2006 15:30 Richard Fojta
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

utf-8 1-4 bajty. Hmm, zajimave informace. Unicode by se mel jmenovat multicode. Snaha sjednotit (uni) kodovani znaku (code) je beh na dlouhou trat.

2.2.2006 15:35 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Vida, toho jsem si ani nevšiml…

2.2.2006 16:36 zde | skóre: 9 | blog: Linuch | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Když už tady pan Kubeček začal píchat do hnid, tak se taky přidám:

utf-8 1-4 bajty.

e-e, Unicode znaky mají sice interně 32 bitů, ale v UTF-8 může být jeden unicode znak reprezentován až 6 bajty. Jeden bit je vyhrazen na ukončení multibyte sekvence, a určité kombinace jsou z různých nedůležitých důvodů vyhrazeny, takže to moc efektivní není.

Všechny české znaky jsou ale ve 2 bajtech, a při obsahu diakritiky v českém textu kolem 20% to dělá zhruba 20% nárůst, což ještě jde.

Táto, ty de byl? V práci, já debil.

2.2.2006 16:46 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Ty čtyři byty jsou opravdu divné. Maximum je šest, pro češtinu stačí dva a jestli mne paměť neklame, všechny dosud registrované znaky se vejdou do tří. Kde se tedy vzala čtyřka?

2.2.2006 17:10 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

to jako ukladat znak na 3 byte ????? uz za tu kacirskou myslenku bych vas nejradej upalil na hranici !!!!

2.2.2006 17:14 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Á, pán je nejen vzdělaný, ale také tolerantní…

Máte-li znaků více než 65536, se dvěma byty nevystačíte, tomu se říká Dirichletův princip…

2.2.2006 17:23 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

nebudu se hadat, jestli je opravdu potreba vic nez 2**16 znaku (neni), ale de me o to, ze kdyz nevystacim se 2 byte, tak pouziju 4 ! kdyz nestaci 4, tak 8 a kdyz nebude stacit ani 8 tak 16! (nebo vic) ale NIC MEZI TIM proste NEEXISTUJE

2.2.2006 17:28 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Obávám se, že vám nemohu doporučit nic jiného, než abyste se nevyjadřoval k věcem, kterým nerozumíte, nechcete-li působit jako hlupák.

2.2.2006 17:36 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

hmmmm... a cemuze konkretne nerozumim ??

2.2.2006 18:55 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Nerozumíš utf-8, tvrdit, že kódování používající 3 byty na jeden znak neexistuje (a ještě velkými písmeny) je toho dokladem, pane programátore. Pokud Michalovi Kubečkovi nevěříš, tak si přečti příslušné RFC.

When your hammer is C++, everything begins to look like a thumb.

2.2.2006 19:01 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Pro ty, kdo se opravdu chtějí něco dozvědět, bych asi doporučil začít přímo u pramene.

2.2.2006 20:12 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

fajn, nepochopili sme se.... netvrdim, ze kodovani, kde muze mit znak 3 byte neexistuje. co sem se tim snazil rict je, ze pouzivat pro zakladni entyty (at uz se jedna o cisla nebo znaky) velikost, ktera neni mocnina 2 je kacirstvi !!

takze to zopakuju jeste jednou:

1, 2, 4, 8, 16, ... a nic jinyho NEEXISTUJE

chapes uz jak to myslim ???? samozrejme ze existuje i petka, ale pokud ju nekdo pouzije, tak ho patri povesit za koule na pruvan....

2.2.2006 21:21 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jenže UCS-4, které byste musel použít, je příliš náročné na prostor. Proto se obvykle používá jen interně. Vyhýbat se trojce by vám nijak nepomohlo, zásadní "kacířství" je v tom, že v UTF-8 mají různé znaky různou délku. Takže už střídání znaků o jednom nebo dvou bytech přináší všechny problémy, kterým se chcete zákazem trojky vyhnout.

2.2.2006 23:26 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

> zásadní "kacířství" je v tom, že v UTF-8 mají různé znaky různou délku.

konecne se na necem shodnem..

2.2.2006 23:32 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Neshodneme, já v tom nevidím kacířství. Ideální kódování neexistuje. UTF-8 je z určitého pohledu tím, které má těch nevýhod z určitého úhlu pohledu nejméně. Rozhodně je lepší než UTF-16, které sdružuje nevýhody prakticky všech kódování, která pokrývají celý rozsah Unicode… A oproti UCS-4, které je optimální z jiného pohledu, je UTF-8 výrazně úspornější.

2.2.2006 23:55 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Kacířství? To jako že se za rozsahy mimo mocninu 2 bude věšet, nebo jak jsi to myslel? A co budeš dělat se samoopravnými kódy, kdy k 7 datovým bitům přidáš 3 paritní (jen příklad)? Autory upálit, normy spálit a zakázat jejich vyučování? Proboha :-D

When your hammer is C++, everything begins to look like a thumb.

3.2.2006 00:11 machr | skóre: 2 | blog: machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

> To jako že se za rozsahy mimo mocninu 2 bude věšet, nebo jak jsi to myslel?

presne tak

> A co budeš dělat se samoopravnými kódy, kdy k 7 datovým bitům přidáš 3 paritní (jen příklad)?

pokud sou zabudovany v hw a funguji naprosto transparentne, tak at si tam klidne sou...

ps: mluvim o mocnine 2 u velikosti zakladnich entit. takze treba tenhle muj prispevek pravdepodobne nema velikost mocninu 2... ;-)

a nicemu to nevadi

ps2: vadi me treba i velikost 10 byte u typu long double

(__) (oo) /-------\/ / | || * ||----|| ~~ ~~

3.2.2006 01:28 Mikos | skóre: 34 | blog: Jaderný blog | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Sorry, ale ty nejsi machr, nýbrž vůl ;-)

CETERUM CENSEO DRM ESSE DELENDAM Ostatně soudím, že DRM musí být zničeno!

3.2.2006 14:21 machr | skóre: 2 | blog: machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

jj, az budes mit priste najakej podobne hodnotnej argument, tak nevahej a vyjadri se bez zabran....

(__) (oo) /-------\/ / | || * ||----|| ~~ ~~

3.2.2006 00:14 Jiří (BoodOk) Kadeřávek | skóre: 19 | blog: BoodOk | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

| tail -1

Věda má v sobě určitou zpupnost, že čím dokonalejší techniku vyvineme, čím více se dozvíme, tím lepší budou naše životy.

2.2.2006 16:03 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

podle me je unicode a celej humbuk kolem toho knicemu. Ze ma 90e3 znaku? pekny a kolik jich znate vy? Ja tak maximalne 200...

myslim, ze mysto vymejsleni nesmyslu by bylo lepsi reseni PRINUTIT cinu, japonce, a konec koncu i CECHY, aby pouzivali 7-BITOVY ASCII !!!!

2.2.2006 16:39 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jak tak koukám na váš příspěvek, vy byste bohatě vystačil i s šestibitovou znakovou sadou…

2.2.2006 16:46 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

... a s šestibitovým číslem na vyjádření IQ? :-D

2.2.2006 17:07 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

mas tam pravopisnou chybu - s sestibYtovym !

9.2.2006 08:31 Deleted [8409] | skóre: 14 | blog: darkblog
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Nema, myslel to tak jak to napsal, 6 bitu

2.2.2006 17:06 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

sem programator, takze nejaky symboly potrebuju. ale zrusit treba velky pismena by me vubec nevadilo a znakova sada by mohla bejt klidne 6-ti bitova....

ps: tim nerikam, ze by to bylo spravny. ascii je proste standard a bude zit naveky :-)

2.2.2006 19:23 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

sem programator, takze nejaky symboly potrebuju.

dobře, tak ... jsem matematik (ehm), takže nějaký symboly potřebuju

jsem muzikant, takže nějaký symboly potřebuju

žiju v ČR, takže brzo budu potřebovat symbol pro novou měnu

naštěstí nejsem slepý, takže Braillovo písmo nepotřebuju …

2.2.2006 20:02 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

ad matematik - to je presne to o cem mluvim. vzdycky me dokaze vytocit, kdyz nekdo pouziva miliony fseliakejch reckejch pismen a podobnej uchylaren. nejenom ze se takovej text dost blbe cte, ale i se v nem dost blbe orientuje, kdyz se musim zabejvat vecma typu "co vlastne znamena to podivny prevraceny R s douma trojteckama...."

ad hudebnik - nevidim zadnej smysl v tom mit noty jako pismena...

ad mena - myslim si, ze nema smysl, aby kazda mena mela svuj symbol (zrovna tak nema smysl, aby mel kazdej cinan svoje pismenko :-)

). staci proste slovni oznaceni.

ad slepy - a co takhle pouzivat proste kodovani ascii a na vystupu to tem slepcum ukazat tak jak je to pro ne citelny. Tak by byl stejnej text citelnej pro vidiciho i proslepyho. Zavadet specialni pismena pro slepce je nesmysl, protoze je potom nutne psat stejny material 2x - jednou pro vidici a jednou pro nevidici...

Myslim si, ze jediny spravny reseni je omezit pouzivani vseliakejch neuzitecnejch symbolu na urcitou zakladni mnozinu (ASCII - at uz je dokonala, nebo neni) a pokud napr v matematickym textu potrebuju pouzit neco jinyho tak to proste zapisu jako kombinaci nejakejch pismen. Bude urcite mnohem citelnejsi, kdyz bude v technickym textu promenna oznacujici el.mg. tok oznacovana jako "tok" nez jako fiiii ci co....

2.2.2006 20:49 koty | skóre: 22 | blog: Koty
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jsem pro. Takový slovní opis nějaké hezkého vzorečku místo odporné verze s těma divnýma nožičkama/tlapičkama určitě většina lidí pochopí mnohem líp. Noty budeme šířit jako obrázky. Burziáni si hezky měny vypíší slovně, stejně mají v těch tabulkách spoustu volného místa. No a ještě bych zrušila názvy barev, protože mě vytáčí, že nedokážu pojmenovat odstíny modré, které se dají koupit v místním krámku pro umělecky založené šílence. ;-)

2.2.2006 20:54 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

chtěl jsem zcela vážně odpovědět, v tom smyslu, že nechápu, proč mají být symboly používané programátory nadřazeny ostatním, a to že měla moje předchozí reakce za pointu, ale pak jsem se dočetl až k:

... tak to proste zapisu jako kombinaci nejakejch pismen. Bude urcite mnohem citelnejsi ...

no tak buď si z nás střílíš, na což nemám náladu a což zřejmě zůstalo i ostatními diskutujícími nepochopeno, nebo to myslíš vážně a pak nemá smysl pokoušet se jakkoliv argumentovat

(no ale přece to zkusím: proč myslíš, že si matematici - a fyzici, když elektromagnetický tok - tisknou výstup z TeXu a ne zdroják, který je povětšinou v čistém ASCII a tedy "určitě mnohem čitelnější"?)

2.2.2006 21:17 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

> chtěl jsem zcela vážně odpovědět, v tom smyslu, že nechápu, proč mají být symboly používané programátory nadřazeny ostatním

to proto, ze programatori vi jak to u pocitacu chodi....

proc si myslite, ze prakticky ve vsech programovacich jazycich se jako identifikatory pouziva sequence ascii znaku a ne nejaky silleny recky pismena ?????????? je to proto, ze bud budu mit omezenou mnozinu symbolu, a nebo budu mit klavesnici pres tri pokoje (nebo budu vsechny symboly hledat v tabulce)

kdyz matematik neco pise na papir, tak pro nej asi ma smysl pouzivat ruzny symboly, protoze je to rychlejsi k zapisu, ale pokud pracujete s pocitacem, tak zdaleka nejrychlejsi je proste napsat skupinu jednoduchejch znaku...

2.2.2006 21:27 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Dáš mi, prosím tě, odkaz na jakýkoliv tvůj program? Díky moc.

Heron

2.2.2006 22:00 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Jak si tak čtu všechny tyhle příspěvky ohledně těch řeckých znaků, válím se tu po zemi :-D

Chvílema lepší jak ftipky.cz.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

2.2.2006 22:27 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Já jsem si původně myslel, že machr je debil a von si z nás jen dělá srandu. Zase jsem to nepoznal :-D

Taky se docela bavím, ale kdybych se chtěl válet po zemi, tak to bych si tu musel nejdřív uklidit a to se mi nechce. Stejně se nejraději válím v posteli.

Ale to sem nepatří.

Heron

2.2.2006 22:37 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

ale jiste. obvykle svy programy nedavam ne inet, ale pro jednou udelam vyjimku :-D

. Bude stacit tahle mala knihovnicka na trenovani neuronovejch siti? (je tam i ukazkovej program) Pokud ne, tak si s tim mozna dam tu praci a najdu neco vetsiho.... Nektery moje kousky maj i pres 100 MB (samozrejme vetsina je tam grafika) (teda pokud na to sezenu vhodnej free-hosting...)

ps: pri nevhodny pocatecni inicializaci muze sit divergovat, ale to uz se u neuronovejch siti obcas stava...

2.2.2006 22:58 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Tak tohle mi rozhodně nestačí... Připadá mi to jako velmi jednoduchá ukázka kódu k přednášce o neuronkách. Daleko důmyslnější program na neuronovky psal kámoš ke své přednášce ohledně diplomky (pátý ročník informatiky), kterou jsem měl tu čest jako první číst (byl jsem požádán o jazykovou korekturu a kritiku).

Heron

2.2.2006 23:20 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

> Připadá mi to jako velmi jednoduchá ukázka kódu k přednášce o neuronkách.

1. ovsem, ze je to velmi jednoduchy. Predpokladam, ze ti slo o to videt jak programuju a pochybuju, ze si budes prochazet nejakej velkej program.

2. je to soucast programu na rozpoznavani rucne psanyho pisma, kterej delam na bakalarku (zatim neni hotovej)

3. pokud si cekal nejakou parni mlaticku s GUI, tak takovy programy ja nedelam. (jen kdyz me k tomu donuti....

ted momentalne nemam nic pripravenyho na uvolneni a zjistit vsechny zavislosti, abych to mohl nahrat do jednoho adr a zabalit... a pak se s tim kopirovat na net... do toho se me vazne nechce...

2.2.2006 23:51 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Predpokladam, ze ti slo o to videt jak programuju

Ani ne.

Stejně nemám žádný důkaz, že ty programy jsi napsal ty, ale dejme tomu, že ti věřím.

Jen by mě zajímalo, kolik máš let. Možná, že programovat umíš, ale co rozhodně neumíš je slušně se vyjadřovat. Z této diskuse mám pocit, že si o sobě myslíš, jako bys měl všechnu moudrost světa (hodně informatiků k tomuto stavu inklinuje). Možná by to chtělo trochu pochopení, že u PC nejsou jen programátoři. Věty o unicode klávesnici s 90e3 tlačítky svědčí o tvé (předstírané?) debilitě.

Na závěr si půjčím odstavec od kavola:

ps: proč tu nemáš vyplněný profil?

Heron

2.2.2006 23:58 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Věty o unicode klávesnici s 90e3 tlačítky svědčí o tvé (předstírané?) debilitě.

OT: to mi připomnělo, chtěl bych si pořídit unicode klávesnici, jak bude velká? Noo, asi jako křídlo z raketoplánu

When your hammer is C++, everything begins to look like a thumb.

3.2.2006 00:16 machr | skóre: 2 | blog: machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

> Věty o unicode klávesnici s 90e3 tlačítky svědčí o tvé (předstírané?) debilitě.

dobre, reknu to jinak. k cemu me je kupa symbolu, kdyz je nemuzu napsat ??? (bez slozityho, zdlouhavyho, nudnyho a zbytecnyho hledani v tabulce)

(__) (oo) /-------\/ / | || * ||----|| ~~ ~~

3.2.2006 00:21 Jiří (BoodOk) Kadeřávek | skóre: 19 | blog: BoodOk | Brno
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Misto hledani v tabulce budes marne vzpominat jak se latinkou zapise znak pro predstiranou debilitu. Rychlost bude stejna, bohuzel learning curve nekde uplne jinde.

Věda má v sobě určitou zpupnost, že čím dokonalejší techniku vyvineme, čím více se dozvíme, tím lepší budou naše životy.

3.2.2006 12:20 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

k cemu me je kupa symbolu,

myslímže to je problém celé této diskuse ... jsou na světě i jiní lidé, kterým se ty symboly zatraceně hodí - a to, že zrovna ty jsi tak nevzdělaný (skoro by se chtělo říct hloupý), že spoustu symbolů neznáš, ještě nijak neznamená, že mají menší "právo na život" než ty, které znáš

kdyz je nemuzu napsat ???

nikdo netvrdí, že by jeden člověk měl být schopen napsat vše ... jestliže ovládáš 200 znaků, stačí ti mít na klávesnici 200 znaků, což není velký problém

9.2.2006 08:37 Deleted [8409] | skóre: 14 | blog: darkblog
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

jj, symboly jsou potreba. Ale nesouhlasim ze na 200 symbolu potrebujeme 200 klaves, priklad si muzeme vzit treba z programu Mathe....., ESCpiESC a mame recke pi (byl to jen priklad na snadne zapamatovani zkratek, ne reklama!).

2.2.2006 20:38 masožravá palma | skóre: 6 | blog: Agnes | Matka měst
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

myslim, ze mysto vymejsleni nesmyslu by bylo lepsi reseni PRINUTIT cinu, japonce, a konec koncu i CECHY, aby pouzivali 7-BITOVY ASCII !!!!

Jak se 7-BIT ASCII shoduje s těmito dvěma příspěvky? 7 přece nepatří mezi čísla, která existují :-) . A nebo, že by to bylo trochu jinak?

Použití více než tří vykřičníků za sebou je neklamným příznakem počínajícího šílenství :-)

Mám městečko, podpořte průmysl a dopravu. Snižujte kriminalitu.

2.2.2006 21:07 machr
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

samozrejme je mysleno 7-bitovy ascii ulozeny na 8 bitu

a jeste me napadlo, kdyz ma to slavny unicode 90e3 znaku. uz se tesim, az si poridim unicode klavesnici s 90e3 klavesama....

3.2.2006 11:49 Hodna Tchyne
Rozbalit Rozbalit vše Re: Unicode: vetsinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

Chapete to, zase jsme ten zapad v necem dohnali! Mame nejvyssi pocet kodovani naseho jazyka na hlavu. ,,Slecno, mohu vam ukazat svou sbirku statnich norem kodovani Cestiny?''

3.2.2006 19:39 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Unicode: vetsinou rozbité

Státní normou bylo AFAIK jen KOI8-CS, ale to zase pro změnu nikdo nepoužíval… :-)

3.2.2006 21:18 kavol | skóre: 28
Rozbalit Rozbalit vše Re: Unicode: vetsinou rozbité

moje tiskárna to uměla :-)

jinak nevím jak teď, jestli už nevešlo v platnost něco dalšího, nicméně alespoň ještě IEC/ISO 8859-2 je též ČSN ...

9.2.2006 08:28 Deleted [8409] | skóre: 14 | blog: darkblog
Rozbalit Rozbalit vše Re: Unicode: většinou rozbité

Odpovědět | Sbalit | Link | Blokovat | Admin

Asi by bylo dobre zminit, ze na platformach windows ma sizeof(wchar_t) 16 bitu a na linuxu 32 bitu, to je alespon moje zkusenost (ale nevim jak je na tom gcc pod windows treba v DevC++).

Nelze posoudit, jestli je lepsi UTF8, UCS2 nebo UCS4, ale podle zdrojaku, ktere jsem prosel je vyuziti nasledujici:

- Qt/KDE pouziva 16 bit kodovani, UTF-16
- Gtk/Gnome pouziva UTF-8
- Fltk 2.0 pouziva UTF-8
- Nevim jaky dalsi priklad...

Založit nové vlákno • Nahoru