Portál AbcLinuxu, 4. května 2025 19:27

Dotaz: UTF-8 a ž vs. ž

3.2. 15:33 reb
UTF-8 a ž vs. ž
Přečteno: 834×
Odpovědět | Admin
Může mi někdo vysvětlit, k čemu je dobré "ž" (7acc8c0) oproti starému dobrému "ž" (c5be)? Až do dneška jsem nevěděl, že to existuje, dokud mi nepřišel soubor pojmenovaný "žádost.pdf", tedy s tím kombinovaným z+ˇ, který samozřejmně nejde najít pomocí 'ls ž*'. Tak by mě zajímal praktický usecase pro existenci dvou (vizuálně) identických, ale odlišných písmen.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

3.2. 16:17 X
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Odpovědět | | Sbalit | Link | Blokovat | Admin
Setkal jsem se s tim jednou. Jmenuje se to 'combining caron' a je to proste vlastnost kodovani toho softu, ktery nepouzije nomalni utf-8/unicode "precomposed character" ale tuhle slepenou hovadinu.
3.2. 16:35 Xerces
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Odpovědět | | Sbalit | Link | Blokovat | Admin
Koukni sem https://en.wikipedia.org/wiki/Precomposed_character. Je to záložitost Unicode. V Unicode máš vyhrazenou oblast, která slouží výhradně ke kombinaci znaků s interpunkcí. Pokud jsem to správně pochopil, tak se to může prakticky hodit při tvorbě fontů. Pokud jsi schopen rozložit znak na nějaký základní + interpunkce, tak nemusíš ve fontu připravovat glyfy pro všechny varianty. Mimochodem. Dávat do názvu souboru diakritiku je čuňačina tak jako tak. :-)
3.2. 19:24 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Dávat do názvu souboru diakritiku je čuňačina tak jako tak.
A čo ak človek používa inú "abecedu" ako Latinku? Pýtam sa pre kamaráta ktorý sa počíta k Inuitskej národnosti a jeho reč je ᐃᓄᒃᑎᑐᑦ.
3.2. 20:40 X
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Hadam se s kamaradem bavite anglicky. -> Problem solved. Diakritika, co si budeme povidat, je proste "voser" a je uplne jedno jaky je to jazyk. Smula, ze zrovna cestina je na takove typograficke speciality dost bohata.
3.2. 21:06 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Názor že všetko mimo US ASCII je blbosť mal skončiť v prepadlišti dejín minulého tisícročia.

A to už dupľom ak slovo s diakritikou tú diakritiku pri zápise nedostane, a zmení sa mu tým význam na niečo iné. Veď už aj prastarý príkaz mlocate má parameter --transliterate na prácu s diakritikou. Ak ti vadí Unicode, tak nepoužívaj FS ktoré Unicode nepozná. Alebo sa vráť o vyše 1/4 storočia do minulosti.
4.2. 08:34 X
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
To kodovani hacku si vysvetlujes jak? Ze si to kazdy soft muze kodovat jak chce protoze to Unicode dovoluje? Takze je to vlastne smula a mas pouzivat vzdy normalizaci, protoze na to neni spoleh? Tak to potom ok.
4.2. 08:51 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Ak to umožňuje štandard Unicode, tak je len na danom SW ako s tým naloží.

A ak má človek bordel v názvoch, tak nech používa správcov súborov ktorý má možnosť transliterate (na ignorovanie diakritiky v zbierkach kde je to pomiešané). Schválne, čo ti vypíše napríklad príkaz ICONV na bežnú prácu s textom, príkaz ktorého rutiny sú prilinkované do programov ktoré danú funkcionalitu používajú:
echo abc ß $ € ¥ ₽ àḃç | iconv -f UTF-8 -t ASCII//TRANSLIT
4.2. 08:59 Want
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Co tu řešíš? To je věcí aplikace, jestli použije hotový znak s diakritikou, nebo složeninu. Tobě to může být egál. Správně by měly psát všechny apky složeniny, ale to by komplikovalo zpracování starších textů, co používaly stejné kódy, ale jiné fonty. Takhle se nejprve převedou do UTF-8 a následně se může diakritika převést na složeniny. Bez toho by to byl problém, protože bys musel tak jako kdysi pokaždé nastavovat výchozí kódování.
4.2. 15:51 X
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Správně by měly psát všechny apky složeniny, ale to by komplikovalo zpracování starších textů, co používaly stejné kódy, ale jiné fonty.
Nechapu co tim myslis. Unicode sada pro cestinu jasne definuje 'composed' znaky. Zadne 'combining' znaky tam proste nejsou. Takze to pouziti nema zadny prakticky vyznam.
4.2. 11:53 Isthvan
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Parametr transliterate ale neni pro praci s diakritikou. To je parametr presne pro praci BEZ diakritiky, coz mluvi za vse.
4.2. 13:35 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Akurát že poskytuje taký jeden veľmi jednoduchý trik, hlavne ak je nejednotný zápis. Ten trik sa volá: ignoruj rôznorodosť diakritických zápisov.
3.2. 22:30 Kit | skóre: 45 | Brno
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Mnoho lidí používá diakritiku v názvu souboru, včetně mne. Nevidím v tom problém - dnešní operační systémy to zvládají.
Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
11.2. 10:37 Xerces
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Šťastná to žena. Povzdechla si za odcházející babičkou kněžna.
4.2. 13:22 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Odpovědět | | Sbalit | Link | Blokovat | Admin
Jak se vlastně dá takový znak napsat třeba v terminálu?
4.2. 13:45 Want
Rozbalit Rozbalit vše Re: UTF-8 a ž vs. ž
Mnoha způsoby. Viz zde. Odkazuji tam mimochodem i na svůj blogpost z 30.1.2017 kde píšu o tom jak tyhle věci psát.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.