Inzerujte na AbcPráce.cz od 950 Kč

napište » Zprávičky

Virtuální Bastlírna vol. 61: Recyklujete svoje nepovedené 3D-tisky?

dnes 05:33 | Pozvánky

Protože je už po aprílu, můžou strahováci opět zveřejnit program další Virtuální Bastlírny, aniž by připravená témata působila dojmem, že jde o žert. Vězte tedy, že již v úterý 7. dubna od 20:00 proběhne VB, kde se setkají bastlíři, technici, učitelé i nadšenci do techniky a kde i vy se můžete zapojit do družného hovoru, jako by všichni seděli u pomyslného piva. Co mají bastlíři tento měsíc na srdci? Pravděpodobně by nás musel zasáhnout meteorit

… více »

bkralik | Komentářů: 0

Stellarium 26.1

včera 23:33 | Nová verze

Byla vydána verze 26.1 aneb čtvrtletní aktualizace open source počítačového planetária Stellarium (Wikipedie, GitHub). Vyzkoušet lze webovou verzi Stellaria na Stellarium Web.

Ladislav Hagara | Komentářů: 1

Model VOID od Netflixu

včera 23:00 | Zajímavý projekt

VOID (Video Object and Interaction Deletion) je nový open-source VLM model pro editaci videa, který dokáže z videí odstraňovat objekty včetně všech jejich fyzikálních interakcí v rámci scény (pády, kolize, stíny...) pomocí quadmaskingu (čtyřhodnotová maska, která člení pixely scény do čtyř kategorií: objekt určený k odstranění, překrývající se oblasti, objektem ovlivněné oblasti a pozadí scény) a dvoufázového inpaintingu. Za projektem stojí výzkumníci ze společnosti Netflix.

NUKE GAZA! 🎆 | Komentářů: 3

Design, 2D CAD pro GNOME

včera 05:22 | Zajímavý software

Design (GitHub) je 2D CAD pro GNOME. Instalovat lze i z Flathubu. Běží také ve webovém prohlížeči.

Ladislav Hagara | Komentářů: 12

Xogot, Godot pro iPad a iPhone

včera 04:11 | Zajímavý software

Příspěvek na blogu herního enginu Godot představuje aplikaci Xogot přinášející Godot na iPad a iPhone. Instalovat lze z App Storu. Za Xogotem stojí Miguel de Icaza (GitHub) a společnost Xibbon.

Ladislav Hagara | Komentářů: 1

Vývoj webového prohlížeče Ladybird (03/2026)

4.4. 04:22 | Komunita

Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za březen (YouTube).

Ladislav Hagara | Komentářů: 14

ESP-IDF 6.0

3.4. 16:44 | Nová verze

ESP-IDF (Espressif IoT Development Framework), tj. oficiální vývojový framework pro vývoj aplikací na mikrokontrolérech řady ESP32, byl vydán v nové verzi 6.0. Detaily na portálu pro vývojáře.

Ladislav Hagara | Komentářů: 0

Model Gemma 4

3.4. 12:33 | Nová verze

DeepMind (Alphabet) představila novou verzi svého multimodálního modelu, Gemma 4. Modely jsou volně k dispozici (Ollama, Hugging Face a další) ve velikostech 5-31 miliard parametrů, s kontextovým oknem 128k až 256k a v dense i MoE variantách. Modely zvládají text, obrázky a u menších verzí i audio. Modely jsou optimalizované pro běh na desktopových GPU i mobilních zařízeních, váhy všech těchto modelů jsou uvolněny pod licencí Apache 2.0. Návod na spuštění je už i na Unsloth.

NUKE GAZA! 🎆 | Komentářů: 12

Cursor 3

3.4. 03:55 | Nová verze

Cursor (Wikipedie) od společnosti Anysphere byl vydán ve verzi 3. Jedná se o multiplatformní proprietární editor kódů s podporou AI (vibe coding).

Ladislav Hagara | Komentářů: 0

TouchStream LP na Apple Magic Trackpad

2.4. 19:55 | Zajímavý projekt

Průkopnická firma FingerWorks kolem roku 2000 vyvinula vícedotykové trackpady s gesty a klávesnice jako TouchStream LP. V roce 2005 ji koupil Apple, výrobu těchto produktů ukončil a dotykové technologie využil při vývoji iPhone. Multiplatformní projekt Apple Magic TouchstreamLP nyní implementuje funkcionalitu TouchStream LP na současném Apple Magic Trackpad, resp. jejich dvojici. Diskuze k vydání probíhá na Redditu.

|🇵🇸 | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / Počítání českých znaků v Reg Exp

Štítky: Perl, programování, regulární výrazy, Unicode, utf8 utf-8

Dotaz: Počítání českých znaků v Reg Exp

8.9.2011 11:18 Hufy
Počítání českých znaků v Reg Exp

Přečteno: 411×

Odpovědět | Admin

Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky

Řešení dotazu:

Komentář #15 (Filip Jirsák, 2 hlasů)

Nástroje: Začni sledovat (1) ?

Odpovědi

8.9.2011 13:31 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.

8.9.2011 18:15 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Sorry, asi nerozumím... Mám vypsat délku načteného řádku?

8.9.2011 18:19 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.

8.9.2011 18:53 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Mám tu

while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce print "$1 ".length($1)."\n"; # pisu levou a delku next; }

a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.

8.9.2011 13:34 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".

8.9.2011 18:20 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.

8.9.2011 15:12 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Dela se to pomoci binmode, takze jak jste to zkousel?

binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print

while (<>) {
  print join ":", /^(.{66})(.*)$/;
}

8.9.2011 15:13 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.

8.9.2011 15:19 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".

8.9.2011 18:59 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

#!/usr/bin/perl use encoding ':utf-8'; binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte binmode *STDOUT, ":utf8"; my @radky; while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce push @radky, $2."\n"; # pravou pulku schovam print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku next; } print @radky; # dotisknu pravy sloupec pod levy # jenze zacatky radku jsou rozhazene

8.9.2011 19:09 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Přílohy:

HH.txt (7575 bytů)
bbb.txt (7843 bytů)

Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.

Řešení 2× (Vojtěch Horký, Hufy (tazatel))

8.9.2011 20:16 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

Místo

binmode STDOUT, ":utf-8";

použijte

use open qw(:std :utf8);

8.9.2011 20:45 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-)

Díky moc všem za rady.

8.9.2011 19:24 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:

$ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
oučký kůň

8.9.2011 19:48 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.

8.9.2011 19:54 jurasek
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Zdar
Kodovani souboru overis prikazem file. file HH.txt
Zdar

8.9.2011 20:42 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp

Ano, je to utf-8, dík

Založit nové vlákno • Nahoru

Tiskni Sdílej: