Inzerujte na AbcPráce.cz od 950 Kč

napište » Zprávičky

NÚKIB podpořil mezinárodní doporučení pro lepší přehled o složení softwaru

včera 19:55 | IT novinky

Národní úřad pro kybernetickou a informační bezpečnost (NÚKIB) se zapojil do mezinárodní iniciativy vedené americkou agenturou CISA (Cybersecurity and Infrastructure Security Agency) a dalšími partnery, jejímž cílem je stanovit minimální náležitosti pro tzv. Software Bill of Materials (SBOM). Nový dokument přináší praktická doporučení, jak by měl vypadat přehled komponent softwaru a jak s ním v praxi pracovat. SBOM lze

… více »

Ladislav Hagara | Komentářů: 0

Servo 0.4.0

včera 03:00 | Nová verze

V aktuálním přehledu vývoje renderovacího jádra webového prohlížeče Servo (Wikipedie) bylo oznámeno vydání nové verze 0.4.0. Výrazně se zlepšilo vykreslování stránek jako lichess.org, Zulip nebo Speedtest.

Ladislav Hagara | Komentářů: 0

Kritické zranitelnosti v produktech VMware: CVE-2026-59309, CVE-2026-59310 a CVE-2026-47876

31.7. 19:22 | Bezpečnostní upozornění

Vládní CERT upozorňuje (𝕏) na kritické zranitelnosti v produktech VMware: CVE-2026-59309, CVE-2026-59310 a CVE-2026-47876. Zranitelnosti v VMware vCenter umožňují vzdálenému útočníkovi se síťovým přístupem obejít autentizaci a získat neoprávněný přístup k vCenter, případně zneužít directory traversal ke spuštění libovolného kódu na vCenter.

Ladislav Hagara | Komentářů: 1

Bezpečnostní chyba hardwarových kryptopeněženek Coldcard

31.7. 18:33 | Bezpečnostní upozornění

Společnost Coinkite upozorňuje na bezpečnostní chybu svých hardwarových kryptopeněženek Coldcard. Jedná se o kritickou chybu v generování náhodných čísel (RNG). Místo hardwarového generátoru náhodných čísel (TRNG) byl omylem používán softwarový fallback (PRNG).

Ladislav Hagara | Komentářů: 2

Shadowfetch Linux, nová distribuce s důrazem na lokální umělou inteligenci

31.7. 14:11 | Zajímavý projekt

Představena byla nová linuxová distribuce Shadowfetch Linux. Na rozdíl od mnoha nováčků, které nabízejí převážně jiné téma a výběr softwaru, tato distribuce založená na Debianu Testing s desktopovým prostředím KDE Plasma 6.6, klade lokálně běžící umělou inteligenci do centra svého desktopového zážitku.

Pinhead | Komentářů: 0

Max Leiter: Wayland, X11, GNOME a KDE nativně na iPadu

30.7. 17:22 | Zajímavý projekt

Max Leiter v roce 2019 zkusil zprovoznit X server na iPadu (iOS). Nyní se k tématu vrátil a s pomocí LLM a balíčkovacích nástrojů Procursus rozběhl desktop s X11 i Waylandem. Jeho balíčky jsou dostupné v repozitáři xiOS.

|🇵🇸 | Komentářů: 19

Google Cloud získal certifikaci pro český veřejný sektor

30.7. 13:33 | IT novinky

Společnost Google Cloud dnes oznámila, že její infrastruktura a služby byly oficiálně zařazeny do Katalogu cloud computingu vedeného Digitální a informační agenturou (DIA). Tato certifikace potvrzuje, že infrastruktura a služby Google Cloud splňují přísné bezpečnostní a regulační požadavky České republiky pro provoz cloudových služeb ve veřejném sektoru.

Ladislav Hagara | Komentářů: 6

Zátěžový test eDokladů / 13. srpna ve 13:00

30.7. 13:11 | IT novinky

Vůbec poprvé v historii se stát při testování digitálních služeb obrací na širokou veřejnost. Digitální a informační agentura (DIA) a Ministerstvo vnitra zvou občany k zapojení do zátěžového testu eDokladů, které od loňského podzimu prošly optimalizací aplikace a posílením infrastruktury. Test proběhne 13. srpna ve 13:00 a pro jeho úspěch bude potřeba zapojení několika desítek tisíc občanů. Zapojení do testu je zcela dobrovolné a úkol

… více »

Ladislav Hagara | Komentářů: 41

FireDragon 13

30.7. 13:00 | Nová verze

FireDragon je webový prohlížeč, doposud založený na Floorpu, jednom z forků Firefoxu s větším důrazem na ochranu soukromí a přizpůsobení uživatelského rozhraní. Spravuje ho člen komunity distribuce Garuda Linux. Nové vydání verze 13 opouští Floorp a přechází přímo na Firefox s patchi z LibreWolfu a vlastními úpravami. Dostupný je také na Flathubu.

|🇵🇸 | Komentářů: 0

picogame, 2D herní engine pro mikrokontroléry jako RP2040

30.7. 05:44 | Zajímavý software

picogame (GitHub) je malý 2D herní engine pro mikrokontroléry jako RP2040, čip uvnitř kapesní konzole Picopad. Hru napíšeš v Pythonu a vyzkoušíš ji v prohlížeči nebo desktopovém simulátoru. Až bude hotová, zkopíruješ ji na podporovanou desku. Na začátku nepotřebuješ C, sestavení firmwaru ani hardware.

Ladislav Hagara | Komentářů: 1

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / C/C++ podpora UTF-8, jak to funguje?

Štítky: C, GCC, kompilace, locale, podpora, programování, Unicode, x86_64

Dotaz: C/C++ podpora UTF-8, jak to funguje?

11.11.2011 23:26 Jarda
C/C++ podpora UTF-8, jak to funguje?

Přečteno: 1520×

Odpovědět | Admin

Zdravím, nerozumím následující věci, popíšu příklad...

Mám zdroják v C, který zobrazí znak 'Ω', tj. Unicode Character 'OHM SIGN' (U+2126).


#include <stdio.h>
#include <wchar.h>
#include <locale.h>
 
int main() {
  setlocale(LC_ALL,"");
  wchar_t myChar1 = L'Ω';
  wchar_t myChar2 = 0x2126;  // hexadecimal encoding of char Ω using UTF-16
  wchar_t myChar3 = L'\xe2\x84\xa6';

  wprintf(L"%lc \n", myChar1);
  wprintf(L"%lc \n", myChar2);
  wprintf(L"%lc \n", myChar3); 

  return 0;
}

Zdroják je na disku uložen v souboru jako UTF-8, tj. znak 'Ω' je v něm jako 0xe2 0x84 0xa6. Ovšem pokud ho chci zapsat v C jako posloupnost bytů tak musím přes UTF-16 (\u2126), já bych ho chtěl ale zapsat jako UTF-8, jako posloupnost těch 3 bytů myChar3.

Z mého pohledu se hodnota u myChar1 a myChar3 zdá stejná (jen trochu jinak zapsaná), ale ve výsledku není, poslední wprintf vypíše znak '¦', tj. \u00a6 neboli UTF-8 0xC2 0xA6.

No jsem z toho nějakej zblblej, používám gcc version 4.6.1 20110908 a glibc-2.14-5.x86_64 :D

Když si v bashi dám echo -e "\xe2\x84\xa6\u2126", tak to na obrazovku normálně vypíše ΩΩ.

Nástroje: Začni sledovat (2) ?

Odpovědi

12.11.2011 00:15 l4m4
Rozbalit Rozbalit vše Re: C/C++ podpora UTF-8, jak to funguje?

wchar_t není UTF-8.

UTF-8 je representace znaků Unicode pomocí různě dlouhých sekvencí bajtů.

wchar_t je nějaký blíže nespecifikovaný platformově závislý vícebytový typ v C. Na MS Windows 16bitový integer (representující UCS-2), na Unixu spíš 32bitový integer (representující UCS-4), taky to ale klidně může být něco ještě podivnějšího, a Unicode Consortium nedoporučuje to používat kvůli přenositelnosti.

Takže běžnější (alespoň na Uninxu; na MS Windows platformová závislost málokoho trápí, když jejich veškerá platforma je MS Windows) je represntovat Unicode řetězce pomocí char v UTF-8, přičemž potom samozřejmě je rozdíl mezi znaky a bajty, protože znak může být více bajtů. Tvoje oblíbená knihovna/framework určitě má funkce pro práci s UTF-8 kódovanými řetězci, tudíž zapisuješ zdroják přímo v UTF-8 (vyžaduje, aby 8bitové znaky bral kompilátor, dnes už nebývá problém) a používáš příslušné UTF-8 (ne wide-char!) funkce.

12.11.2011 02:35 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: C/C++ podpora UTF-8, jak to funguje?

Druhou možností je převést UTF-8 na tu interní reprezentaci, s tou pracovat interně a před uložením zase konvertovat zpátky. To se hodí hlavně tam, kde by proměnná délka znaku příliš komplikovala život a naopak nevadí větší spotřeba paměti. V C na to lze použít např. funkce mbsrtowcs() a wcsrtombs(), v C++ se přiřadí locale I/O streamu (metoda imbue()).

12.11.2011 12:55 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: C/C++ podpora UTF-8, jak to funguje?

Na druhou stranu wchar_t podle ISO C99 musí splňovat podmínku, že pojme libovolný znak z libovolného locale podporovaného danou implementaci standardní knihovny. A navíc jediný způsob, jak (pomocí standardní knihovny) zjistit zobrazovanou šířku znaku (0 sloupců pro wor-joiner, 1 pro běžnou latinku, 2 pro CJK) je přes typ wchar_t, takže se mu ani tak nevyhnete.

12.11.2011 13:24 l4m4
Rozbalit Rozbalit vše Re: C/C++ podpora UTF-8, jak to funguje?

Chci vidět program, který pracuje smysluplně s mezinárodním textem pouze pomocí standardní knihovny...

Nicméně je dobře, že jsi upozornil, na vlastnost pojme libovolný znak z libovolného locale podporovaného danou implementaci standardní knihovny, protože standard C umožňuje dokonce i pouze 8bitový wchar_t (a na nějakých obskurních/historických systémech to tak i je, akorát bych musel najít kde a jak, byl to nějaký, co měl jako největší vymoženost podporu Latin1).

Tudíž chceš-li používat Unicode, tak ho používej, použij nějakou knihovnu pro práci s Unicode (ať už representované v UTF-8 jako bajty nebo v UCS-4 jako 32bitové integery), a nematlej do toho wchar_t.

Stačí-li ti nepřenositelně podporovat cokoli, co tvůj kompilátor a standardní knihovna zrovna prohlásily za wide-char, a používat pouze funkce standardní knihovny, tak používej to.

20.11.2011 23:39 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: C/C++ podpora UTF-8, jak to funguje?

V podstatě můžeš kódování ignorovat a použít prosté char * v UTF-8 – tak jak to dostaneš, tak to vypíšeš.

Řešit to musíš až v okamžiku, kdy tě zajímá, kolik místa to zabere na obrazovce (strlen() nestačí) nebo pokud chceš seřadit seznam (strcmp() nestačí), případně zkracovat řetězce (abys nerozpůlil znak).

Hello world ! Segmentation fault (core dumped)

Založit nové vlákno • Nahoru

Tiskni Sdílej: