abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
včera 22:00 | Komunita

Přibližně před měsícem bylo oznámeno, že linuxová distribuce SUSE Linux Enterprise Server (SLES) běží nově také Raspberry Pi 3 (dokumentace). Obraz verze 12 SP2 pro Raspberry Pi 3 je ke stažení zdarma. Pro registrované jsou po dobu jednoho roku zdarma také aktualizace. Dnes bylo oznámeno, že pro Raspberry Pi 3 je k dispozici také nové openSUSE Leap 42.2 (zprávička). K dispozici je hned několik obrazů.

Ladislav Hagara | Komentářů: 2
včera 06:00 | Zajímavý software

OMG! Ubuntu! představuje emulátor terminálu Hyper (GitHub) postavený na webových technologiích (HTML, CSS a JavaScript). V diskusi k článku je zmíněn podobný emulátor terminálu Black Screen. Hyper i Black Screen používají framework Electron, stejně jako editor Atom nebo vývojové prostředí Visual Studio Code.

Ladislav Hagara | Komentářů: 29
včera 06:00 | Zajímavý článek

I letos vychází řada ajťáckých adventních kalendářů. QEMU Advent Calendar 2016 přináší každý den nový obraz disku pro QEMU. Programátoři se mohou potrápit při řešení úloh z kalendáře Advent of Code 2016. Kalendáře Perl Advent Calendar 2016 a Perl 6 Advent Calendar přinášejí každý den zajímavé informace o programovacím jazyce Perl. Stranou nezůstává ani programovací jazyk Go.

Ladislav Hagara | Komentářů: 8
3.12. 16:24 | Nová verze

Byla vydána Mageia 5.1. Jedná se o první opravné vydání verze 5, jež vyšla v červnu loňského roku (zprávička). Uživatelům verze 5 nepřináší opravné vydání nic nového, samozřejmě pokud pravidelně aktualizují. Vydání obsahuje všechny aktualizace za posledního téměř půldruhého roku. Mageia 5.1 obsahuje LibreOffice 4.4.7, Linux 4.4.32, KDE4 4.14.5 nebo GNOME 3.14.3.

Ladislav Hagara | Komentářů: 14
3.12. 13:42 | Pozvánky

V Praze probíhá konference Internet a Technologie 16.2, volné pokračování jarní konference sdružení CZ.NIC. Konferenci lze sledovat online na YouTube. K dispozici je také archiv předchozích konferencí.

Ladislav Hagara | Komentářů: 0
2.12. 22:44 | Komunita

Joinup informuje, že Mnichov používá open source groupware Kolab. V srpnu byl dokončen dvouletý přechod na toto řešení. V provozu je asi 60 000 poštovních schránek. Nejenom Kolabu se věnoval Georg Greve ve své přednášce Open Source: the future for the European institutions (SlideShare) na konferenci DIGITEC 2016, jež proběhla v úterý 29. listopadu v Bruselu. Videozáznam přednášek z hlavního sálu je ke zhlédnutí na Livestreamu.

Ladislav Hagara | Komentářů: 25
2.12. 15:30 | Zajímavý projekt

Společnost Jolla oznámila v příspěvku Case study: Sailfish Watch na svém blogu, že naportovala Sailfish OS na chytré hodinky. Využila a inspirovala se otevřeným operačním systémem pro chytré hodinky AsteroidOS. Použita je knihovna libhybris. Ukázka ovládání hodinek na YouTube.

Ladislav Hagara | Komentářů: 16
2.12. 14:15 | Nová verze

Byla vydána verze 7.1.0 skriptovacího jazyka PHP používaného zejména k vývoji dynamických webových stránek. Jedná se o první stabilní verzi nejnovější větvě 7.1. Přehled novinek v dokumentaci. Podrobnosti v ChangeLogu. K dispozici je také příručka pro přechod z PHP 7.0.x na PHP 7.1.x.

Ladislav Hagara | Komentářů: 5
2.12. 12:55 | Nová verze

Google Chrome 55 byl prohlášen za stabilní. Nejnovější stabilní verze 55.0.2883.75 tohoto webového prohlížeče přináší řadu oprav a vylepšení (YouTube). Opraveno bylo také 36 bezpečnostních chyb. Mariusz Mlynski si například vydělal 22 500 dolarů za 3 nahlášené chyby (Universal XSS in Blink).

Ladislav Hagara | Komentářů: 4
2.12. 11:55 | Pozvánky

Máte rádi svobodný software a hardware nebo se o nich chcete něco dozvědět? Přijďte na 135. sraz spolku OpenAlt, který se bude konat ve čtvrtek 8. prosince od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Sraz bude tentokrát tématický. Bude retro! K vidění budou přístroje jako Psion 5mx nebo Palm Z22. Ze svobodného hardwaru pak Openmoko nebo čtečka WikiReader. Přijďte se i vy pochlubit svými legendami, nebo alespoň na pivo. Moderní hardware má vstup samozřejmě také povolen.

xkucf03 | Komentářů: 1
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 774 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: Převod UTF-8 do UNICODE v C

tomes.io avatar 2.3.2012 19:48 tomes.io | skóre: 12 | blog: tomesh
Převod UTF-8 do UNICODE v C
Přečteno: 1234×
Zdravim,

resim problem v C tykajici se prevodu kodovani. Na vstupu predpokladam korektni HEX znak v UTF-8 kodovani v rozsahu 1-4 bajty. Vystupem pak ma byt tento znak prevedeny do HEX unicode. Vychazim z informaci na wiki (ale i jinde) o UTF-8 kodovani. Napsal jsem nasledujici fci vyuzivajici bitove masky (x je ze scanf("%X", &x) ktere se posle jako vstup do fce:

unsigned int convUnicode(int x) {

unsigned int y = 0, m = 0, n = 0;

m = y = n = x;

x = (x & 0x7000000);

x = x >> 6;

n = (n & 0xF0000);

n = n >> 4;

m = (m & 0x3F00);

m = m >> 2;

y = (y & 0x003F);

x = x | y | m | n;

printf("0x%X\n", x);

return 0; }

Problem je ten, ze u jednobitovych znaku mi fce na outputu dava korektne jen cisla 1-39- 40 vypise jako 0x0, 41 jako 0x1 atd. az do 80. 80 vypise jako 0x0, 81 jako 0x1... proste to jakoby funguje jen po cislo 39 ap ka to jede od znovu. VIcebitove vstupy jsem zatim netestoval moc, dosud se zdaji byt korektni, ale musim to testovat na vetsi skale cisel.

Opravdu by me zajimalo, v cem delam chybu. S praci na bitove urovni mam v C opravdu minimalni zkusenosti, takze by me zajimalo, co a jak delam blbe. Idealne, kdyby mi nekdo poradil, nebo apson navedl na zpusob korektni implemntace. Nechci aby to nekdo vyresil za me, jen chci nakopnout.

Řešení dotazu:


Odpovědi

tomes.io avatar 2.3.2012 20:00 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Tak jsem si vsiml chybky, na wikinach o UTF-8 kodovani pisou o 007F... atd. a ja mam 003F..

Unicode kód od - do Binární zápis znaku v UTF-8 0000 0000 - 0000 007F 0xxxxxxx 0000 0080 - 0000 07FF 110xxxxx 10xxxxxx 0000 0800 - 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000 - 001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Nicmene, i po uprave masek na 007F se mi HEX korektne vypisuje jen do vstupu 79 (= 0x79). 80 uz koduje jako 0x0.. :( Je jasne, ze do 127 se jedna porad o ASCII, ale jak to namaskovat, aby tam byla ta implementace UTF-8 do UNICODE?
2.3.2012 20:32 Kit
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Máš to nějaké zmatené.
  • Co je to jednobitový znak?
  • Proč to neděláš klasicky odčítáním nebo rychle přes mapu?
  • Co je to HEX znak v UTF-8 kodovani v rozsahu 1-4 bajty? UTF-8 může být na 1-6 bytech, když to bude HEX, tak 2-12 bytů
  • Co si představuješ pod pojmem "Vícebitové vstupy?" Všechny znaky v UTF-8 jsou vícebitové
  • Proč ty proměnné posouváš po 2 bitech?
  • Proč na výpis programu nepoužíváš <pre>, aby se to dalo číst?
tomes.io avatar 2.3.2012 20:49 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
ad 1) 1 bitovy znak: myslel jsem 1 bajtový znak. napriklad cislo 68.

ad 2) psal jsem, ze na bitove urovni jsem nikdy neprogramoval, je to pro me spanelska vesnice, bohuzel jsme tento priklad dostali za domaci ukol. nevedel jsem vubec, od ceho se odpichnout, takze nevim, jak se to dela "klasicky" odcitanim (co se od ceho odcita?), nikdo me neucil zadny rychly zpusob pres mapu, nas postavili ve skole pred hotovou vec...(zadani znelo: Vašou úlohou je napísať program, ktorý číta hexadecimálne kódy znakov UTF-8 zo štandardného vstupu. do hodnoty znaku v Unicode tabuľke. prvé číslo v dekadickom formáte, určuje počet nasledovných čísiel, číslo bude vždy validný UTF-8 kód)

ad 3) - na vstupu se predpoklada UTF-8 znak v hexadecimalnim tvaru

ad 4) myslel jsem vicebajtove, spatne jsem to napsal

ad5) myslel jsem, ze kdyz se treba 2 bajtove cislo pomoci masky "oreze" tak je treba ho oṕosunout o orezany pocet bitu. jak rikam, jsem v tomto novacek a jak vidis, hodne v tom plavu, takze experimentuju a zkousim...ten posuv pri dekoduje korektne nektere znaky (napr pri vstupu CAAC mi korektne vypise vystup 2AC)

ad6) protoze jsem debil :) odted budu pouzivat
2.3.2012 20:41 Vlk
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Domácí úkol do úvodu v Cčku na Fakultě informatiky MU ? :-)
2.3.2012 20:49 Jan Trávníček | skóre: 10 | blog: ehonza | Existuje
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Nebo na FIT CVUT?
To mess up a Linux box, you need to work at it; to mess up your Windows box, you just have to work on it.
tomes.io avatar 2.3.2012 20:50 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Ano :) vzhledem k tomu, ze jsem nezastihnul studentskeo poradce, zkousim se ptat tady. Potrebuju nakopnout, tohle bitovep ocitani je pro me neco uplne novyho..
2.3.2012 20:47 lertimir | skóre: 58 | blog: Par_slov
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
tomes.io avatar 2.3.2012 21:26 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
JA se nesnazim nic vynalezt to chran Buddha :)

Jen je tohle pro me absolutne nove, takze se snazim prijit na to, co s tim. Jak vytvorit spravne masky, jak je pouzit. Nikdy predtim jsem to nedelal, to je jako kdyz posadis cloveka ktery sely zivot ridil v superbu do lady nivy...

Rekli nam, ze vse potrebne najdem na wiki, nebo googlu. OK, mam tady tu tabulku:
U-00000000 – U-0000007F: 	0xxxxxxx
U-00000080 – U-000007FF: 	110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF: 	1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF: 	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF: 	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 – U-7FFFFFFF: 	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxx
Nerudovska otazka, co s ni? 0 - 7F to je prvnich 127, tedy ASCII. Otazka zni: uzit nejakou masku?

U-00000080 – U-000007FF:. Tak a ted jak zprvniho bajtu oriznout 110 a z druheho 10?

Kdyz pouziju:
scanf("%X", &x);

x = (x & 0x7FF);

printf("0x%X\n", x);
Tak se zda, ze to dekoduje v pohode.

Ale v pripade 3 bajtoveho (U-00000800 – U-0000FFFF) znaku to uz nedekoduje v pohode:
x = (x & 0xFFFF);
Takze ja proste nevim jak spravne vyuzit tu tabulku z wiki a dalsich odkazu, nevim jak to spravne namaskovat.

Mozna by to slo postupnym rozlozenim cisla na jednotlive bajty a ty pak orezat. Ale nevim, jak se takovy rozklad v C implementuje...
2.3.2012 21:34 l4m4
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Tak a ted jak zprvniho bajtu oriznout 110 a z druheho 10?
Musíš oříznout ty správné bity, použít opererátory bitového posunu << a >>, abys je posunul, kam patří ve výsledném bajtu, a zkombinovat výsledek pomocí |.

P.S.: Převod UTF-8 do UNICODE nedává smysl. UTF-8 je representace Unicode, takže co je v UTF-8, to už je v Unicode.
tomes.io avatar 3.3.2012 21:56 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Tak jsem to vyresil takto. Snad jsem pokryl vsechny moznosti pro 1-4 bajtove vstupy:
 if (x <= 0x7F){ //testuje zda je znak 1 bajtovy ANSII

        printf("0x%X\n", x);

      }  else if ((x > 0x7F) && (x <= 0xBF)) { //testuje zda je znak jednobajtovy, s hodnotou vyssi nez ANSII

                x = (x & 0x003f);

                printf("0x%X\n", x);

      } else if ((x > 0xBF) && (x <= 0xDFBF)){  //testuje dvoubajtove znaky

               x = ((x & 0x1f00) >> 2) | (x & 0x003f);

               printf("0x%X\n", x);

      } else if ( (x > 0xDFBF) && (x <= 0xEFBFBF)) { //testuje tribajtove znaky

               x = (((x & 0xF0000) >> 4) | ((x & 0x3f00) >>2) | (x & 0x003f));

               printf("0x%X\n", x);

      } else if ((x > 0xEFBFBF) && (x <= 0xF7BFBFBF )){  //testuje ctyrbajtove znaky

                x = ( ((x & 0x7000000) >> 6) | ((x & 0x3f0000) >> 4) | ((x & 0x3f00) >>2) | (x & 0x003f));

               printf("0x%X\n", x);
      }

      return 0;
 }
Jinak UTF-8 do unicode samozreme smysl ma:
http://www.utf8-chartable.de/
Cely priklad je vlastne prevodnik z UTF-8 do UNICODE a z UNICODE do UTF-16.
3.3.2012 22:12 l4m4
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Jinak UTF-8 do unicode samozreme smysl ma
Ne, tato věta je výrazem nepochopení vztahu Unicode a UTF-8. UTF-8 můžeš převést leda do nějaké jiné representace Unicode, ale pořád bude nějak representováno.

Tabulka bloku prvních 256 znaků má dokazovat konkrétně co?
tomes.io avatar 3.3.2012 22:16 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Mozna je to blbe napsane, nebo spis malo jednoznacne. Oficialni zadani zni takto:
Vašou úlohou je napísať program, ktorý číta hexadecimálne kódy znakov UTF-8 zo štandardného vstupu. Jednotlivé kódy dekóduje najprv do hodnoty znaku v Unicode tabuľke, následne znak opäť zakóduje podľa UTF-16.
"dekoduje do hodnoty v UNICODE"
3.3.2012 22:19 l4m4
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Získat z UTF-8 hodnotu znaku (codepoint) v Unicode je samozřejmě smysluplné zadání.
tomes.io avatar 3.3.2012 22:24 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Ja to chapu tak, ze tu mame sadu znaku UNICODE, ktera se da ruzne kodovat. UTF-8 i UTF-16 jsou ruzne druhy kodovani teze sady UNICODE. Takze nevim, v cem je problem :) Maximalne, v tom, ze jsem to nepresne napsal,to je vsecko...
tomes.io avatar 3.3.2012 22:12 tomes.io | skóre: 12 | blog: tomesh
Rozbalit Rozbalit vše Re: Převod UTF-8 do UNICODE v C
Hm tak to rozdeleni testovani jednobajtoveho je asi blbost. Staci:
 if (x <= 0xBF){ //testuje zda je znak 1 bajtovy

        printf("0x%X\n", x);

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.