Přihlášení | Registrace

napište » Zprávičky

inzerujte » Pracovní nabídky

MagPi 141 a HackSpace 78

včera 23:33 | Nová verze

Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 141 (pdf) a HackSpace 78 (pdf).

Ladislav Hagara | Komentářů: 0

Kotlin 2.0.0 a KotlinConf 2024

včera 21:22 | Nová verze

Byla vydána verze 2.0.0 programovacího jazyka Kotlin (Wikipedie, GitHub). Oficiálně bude představena ve čtvrtek na konferenci KotlinConf 2024 v Kodani. Livestream bude možné sledovat na YouTube.

Ladislav Hagara | Komentářů: 1

Erlang/OTP 27.0

včera 12:55 | Nová verze

Byla vydána nová major verze 27.0 programovacího jazyka Erlang (Wikipedie) a související platformy OTP (Open Telecom Platform, Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 0

HandBrake 1.8.0

včera 01:11 | Nová verze

Byla vydána nová verze 1.8.0 svobodného multiplatformního softwaru pro konverzi video formátů HandBrake (Wikipedie). Přehled novinek v poznámkách k vydání na GitHubu. Instalovat lze také z Flathubu.

Ladislav Hagara | Komentářů: 0

Microsoft Copilot+

20.5. 21:55 | IT novinky

Microsoft představil nové označení počítačů Copilot+. Dle oznámení se jedná se o počítače poskytující funkce umělé inteligence. Vedle CPU a GPU mají také NPU (Neural Processing Unit). Uvnitř představených Copilot+ notebooků běží ARM čipy Qualcomm Snapdragon X Elite nebo X Plus.

Ladislav Hagara | Komentářů: 4

Zranitelnost CVE-2024-4367 v PDF.js (Firefox < 126)

20.5. 17:55 | Zajímavý článek

Příspěvek na blogu Codean Labs rozebírá zranitelnost CVE-2024-4367 v PDF.js, tj. mj. prohlížeči PDF souborů ve Firefoxu. Při otevření útočníkem připraveného pdf souboru může být spuštěn libovolný kód v JavaScriptu. Vyřešeno ve Firefoxu 126.

Ladislav Hagara | Komentářů: 1

Lazygit 0.42.0

20.5. 12:55 | Nová verze

Lazygit byl vydán ve verzi 0.42.0. Jedná se o TUI (Text User Interface) nadstavbu nad gitem.

Ladislav Hagara | Komentářů: 0

Open source herní konzole Picopad a Picopad Pro

20.5. 12:22 | IT novinky

K open source herní konzole Picopad přibyla (𝕏) vylepšená verze Picopad Pro s větším displejem, lepšími tlačítky a větší baterii. Na YouTube lze zhlédnout přednášku Picopad - open source herní konzole z LinuxDays 2023.

Ladislav Hagara | Komentářů: 10

GitLab 17

17.5. 13:44 | Nová verze

Byla vydána (𝕏) nová major verze 17 softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech GitLab (Wikipedie). Představení nových vlastností i s náhledy a videi v oficiálním oznámení.

Ladislav Hagara | Komentářů: 0

Sovereign Tech Fund podpoří vývoj FFmpeg

17.5. 12:22 | Komunita

Sovereign Tech Fund, tj. program financování otevřeného softwaru německým ministerstvem hospodářství a ochrany klimatu, podpoří vývoj FFmpeg částkou 157 580 eur. V listopadu loňského roku podpořil GNOME částkou 1 milion eur.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (80%)

Jsem člověk. (5%)

Opravdu jsem člověk! (8%)

Jsem něco jiného. (7%)

Celkem 446 hlasů

Komentářů: 16, poslední 14.5. 11:05

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / C++ zjistit počet znaků ve stringu (UTF8)

Štítky: bez, C++, programování

Dotaz: C++ zjistit počet znaků ve stringu (UTF8)

28.2.2012 09:13 Smíšek
C++ zjistit počet znaků ve stringu (UTF8)

Přečteno: 1179×

Odpovědět | Admin

Ahoj, jak už název říká, potřeboval bych v c++ zjistit ze zadaného stringu počet znaků. Funkce .size() i .length() mi dávají špatné odpovědi při použití diakritiky (ěščřžýáíé,..), počítám s tím že znaky s diakritikou v UTF8 zabírají 2bajty, bez nich 1bajt. Nemáte nějakou odzkoušenou funkci která mi to správně spočítá. Chvíli už hledám, ale na nic kloudného jsem nenarazil. Použitý kompilátor: g++ (Debian 4.6.2-16) 4.6.2

Řešení dotazu:

Komentář #1 (Kit, 2 hlasů)

Nástroje: Začni sledovat (0) ?

Odpovědi

Řešení 2× (Vašek Lorenc, Vojtěch Horký)

28.2.2012 09:48 Kit
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

Utf8StringSize()

28.2.2012 10:04 Smíšek
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

Díky

funguje parádně

28.2.2012 14:02 Sten
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

Dovoluju si upozornit, že nejde o počet znaků, ale o počet code pointů. Sice se u českého uživatele většinou nesetkáte s tím, že by jeden znak byl zapsán více code pointy, ale pokud jde o ochranu vstupu, může někdo podle napsat č místo jednoho code pointu U+010D dvěma code pointy U+0063 U+030C, a pak vám ta funkce vrátí, že tam jsou znaky dva, i když je jeden. Zjistit skutečný počet znaků je ale kvůli tomu v Unicode velmi obtížné a musel byste na to použít třeba knihovnu ICU.

28.2.2012 14:37 Ivan
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

Dik za tip. Tohle jsem netusil. Hadam ze to co popisujes se muze stat pokud uzivatel pouzije Ctrl+C Ctrl+V z PDF.

29.2.2012 15:05 Sten
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

U PDF to IMO nehrozí, ale třeba MacOS X používá interně (např. na souborovém systému) ty znaky dekomponované (rozložené), i když pro komunikaci by je měl zase složit.

29.2.2012 10:47 lofcek
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

A ja viem este o dalsich "bonusoch" vyplyvajucich z pouzivania Unicode (nie len utf-8).

1. Ja uplne jedno, ci mam retazec ulozeny ako "wchar_t*", alebo utf-8 char* - aj tak vo funkciach ako printf sa sirka pocita v znakoch utf-8. Cize printf("%.4ls\n", L"ažšČľňť"); pochopi ako 4 utf-8 znaky - cize: a = 1 znak ž = 2 znaky š = 2 znaky, to by uz nevyslo cele .. takze z neho sa uz neypise nic.

2. Znaky v korejcine/japoncine a cinstine sice zaberaju len jeden wchar_t, ale v terminale zaberaju sirku 2 znakov. Potom, ked sme robili korejsku lokalizaciu produktu, tak sme zistili, ze existuje wcwidth a wcswidth.

29.2.2012 16:02 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: C++ zjistit počet znaků ve stringu (UTF8)

A ja viem este o dalsich "bonusoch" vyplyvajucich z pouzivania Unicode (nie len utf-8).

Možná jsi zmaten tím, že v začátcích Unicode existovalo kódování Unicode, které se jmenovalo stejně jako znaková sada Unicode. Ale to už strašně moc dlouho neplatí.

Unicode má hodně přes sto tisíc definovaných znaků a teoreticky cca dvě miliardy, takže na uložení obecného codepointu do 16bit číselné proměnné zapomeň. Standard definuje 31-bitové codepointy, aby byly totožné v signed i unsigned 32-bit proměnných.

UTF-8 je jedno z možných kódování (formátů serializace) znakové sady Unicode. Znaková sada je v tomhle případě abstraktní věc, seznam codepointů (obvykle) pro jednotlivé znaky.

S tou korejštinou dobrá poznámka.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje