abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
dnes 06:00 | Komunita

Na YouTube byl publikován Blender Institute Reel 2016, ani ne dvouminutový sestřih z filmů, které vznikly za posledních 10 let díky Blender Institutu. V institutu aktuálně pracují na novém filmu Agent 327. Dění kolem filmu lze sledovat na Blender Cloudu. Videoukázka Agenta 327 z června letošního roku na YouTube.

Ladislav Hagara | Komentářů: 0
dnes 01:02 | Zajímavý článek

Minulý týden byly vydány verze 1.2.3 a 1.1.7 webového poštovního klienta Roundcube. V oznámení o vydání bylo zmíněno řešení bezpečnostního problému nalezeného společností RIPS a souvisejícího s voláním funkce mail() v PHP. Tento týden byly zveřejněny podrobnosti. Útočník mohl pomocí speciálně připraveného emailu spustit na serveru libovolný příkaz. Stejně, jak je popsáno v článku Exploit PHP’s mail() to get remote code execution z roku 2014.

Ladislav Hagara | Komentářů: 0
včera 16:00 | Nová verze

Byla vydána verze 0.98 svobodného nelineárního video editoru Pitivi. Z novinek lze zmínit například přizpůsobitelné klávesové zkratky. Videoukázka práce s nejnovější verzí Pitivi na YouTube.

Ladislav Hagara | Komentářů: 1
včera 15:00 | Zajímavý software

Stop motion je technika animace, při níž je reálný objekt mezi jednotlivými snímky ručně upravován a posouván o malé úseky, tak aby po spojení vyvolala animace dojem spojitosti. Jaký software lze pro stop motion použít na Linuxu? Článek na OMG! Ubuntu! představuje Heron Animation. Ten bohužel podporuje pouze webové kamery. Podpora digitálních zrcadlovek je začleněna například v programu qStopMotion.

Ladislav Hagara | Komentářů: 3
7.12. 21:21 | Nová verze Ladislav Hagara | Komentářů: 0
7.12. 11:44 | Zajímavý projekt

Na Indiegogo byla spuštěna kampaň na podporu herní mini konzole a multimediálního centra RetroEngine Sigma od Doyodo. Předobjednat ji lze již od 49 dolarů. Požadovaná částka 20 000 dolarů byla překonána již 6 krát. Majitelé mini konzole si budou moci zahrát hry pro Atari VCS 2600, Sega Genesis nebo NES. Předinstalováno bude multimediální centrum Kodi.

Ladislav Hagara | Komentářů: 2
7.12. 00:10 | Nová verze

Byla vydána verze 4.7 redakčního systému WordPress. Kódové označením Vaughan bylo vybráno na počest americké jazzové zpěvačky Sarah "Sassy" Vaughan. Z novinek lze zmínit například novou výchozí šablonu Twenty Seventeen, náhledy pdf souborů nebo WordPress REST API.

Ladislav Hagara | Komentářů: 9
6.12. 12:00 | Zajímavý projekt

Projekt Termbox umožňuje vyzkoušet si linuxové distribuce Ubuntu, Debian, Fedora, CentOS a Arch Linux ve webovém prohlížeči. Řešení je postaveno na projektu HyperContainer. Podrobnosti v často kladených dotazech (FAQ). Zdrojové kódy jsou k dispozici na GitHubu [reddit].

Ladislav Hagara | Komentářů: 27
6.12. 11:00 | Bezpečnostní upozornění

Byly zveřejněny informace o bezpečnostní chybě CVE-2016-8655 v Linuxu zneužitelné k lokální eskalaci práv. Chyba se dostala do linuxového jádra v srpnu 2011. V upstreamu byla opravena minulý týden [Hacker News].

Ladislav Hagara | Komentářů: 2
5.12. 22:00 | Komunita

Přibližně před měsícem bylo oznámeno, že linuxová distribuce SUSE Linux Enterprise Server (SLES) běží nově také Raspberry Pi 3 (dokumentace). Obraz verze 12 SP2 pro Raspberry Pi 3 je ke stažení zdarma. Pro registrované jsou po dobu jednoho roku zdarma také aktualizace. Dnes bylo oznámeno, že pro Raspberry Pi 3 je k dispozici také nové openSUSE Leap 42.2 (zprávička). K dispozici je hned několik obrazů.

Ladislav Hagara | Komentářů: 6
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (8%)
 (5%)
 (3%)
Celkem 799 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: Počítání českých znaků v Reg Exp

8.9.2011 11:18 Hufy
Počítání českých znaků v Reg Exp
Přečteno: 322×
Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky


Řešení dotazu:


Odpovědi

8.9.2011 13:31 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.
8.9.2011 18:15 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Sorry, asi nerozumím... Mám vypsat délku načteného řádku?
8.9.2011 18:19 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.
8.9.2011 18:53 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Mám tu

while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
print "$1 ".length($1)."\n"; # pisu levou a delku
next;
}

a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.
8.9.2011 13:34 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".
8.9.2011 18:20 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.
8.9.2011 15:12 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Dela se to pomoci binmode, takze jak jste to zkousel?
binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print

while (<>) {
  print join ":", /^(.{66})(.*)$/;
}
8.9.2011 15:13 ams
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.
8.9.2011 15:19 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".
8.9.2011 18:59 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

#!/usr/bin/perl
use encoding ':utf-8';
binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte
binmode *STDOUT, ":utf8";

my @radky;
while (<>) {
/^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
push @radky, $2."\n"; # pravou pulku schovam
print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku
next;
}

print @radky; # dotisknu pravy sloupec pod levy
# jenze zacatky radku jsou rozhazene

8.9.2011 19:09 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Přílohy:
Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.
Řešení 2× (Vojtěch Horký, Hufy (tazatel))
8.9.2011 20:16 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

Místo
binmode STDOUT, ":utf-8";
použijte
use open qw(:std :utf8);
8.9.2011 20:45 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-) Díky moc všem za rady.
8.9.2011 19:24 Sten
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:
$ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
oučký kůň
8.9.2011 19:48 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.
8.9.2011 19:54 jurasek
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Zdar
Kodovani souboru overis prikazem file. file HH.txt
Zdar
8.9.2011 20:42 Hufy
Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
Ano, je to utf-8, dík

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.