abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 11:44 | Nová verze

    Dibuja je jednoduchý kreslící program inspirovaný programy Paintbrush pro macOS a Malování pro Windows. Vydána byla verze 0.26.0.

    Ladislav Hagara | Komentářů: 0
    včera 23:33 | Nová verze

    Byla vydána nová verze 9.13 z Debianu vycházející linuxové distribuce DietPi pro (nejenom) jednodeskové počítače. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 21:44 | Komunita

    Na čem aktuálně pracují vývojáři GNOME a KDE Plasma? Pravidelný přehled novinek v Týden v GNOME a Týden v KDE Plasma.

    Ladislav Hagara | Komentářů: 0
    včera 16:33 | Nová verze

    Byla vydána nová stabilní verze 3.22.0, tj. první z nové řady 3.22, minimalistické linuxové distribuce zaměřené na bezpečnost Alpine Linux (Wikipedie) postavené na standardní knihovně jazyka C musl libc a BusyBoxu. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    30.5. 00:33 | IT novinky

    FEL ČVUT vyvinula robotickou stavebnici pro mladé programátory. Stavebnice Brian byla navržená speciálně pro potřeby populární Robosoutěže. Jde ale také o samostatný produkt, který si může koupit každý fanoušek robotiky a programování od 10 let, ideální je i pro střední školy jako výuková pomůcka. Jádro stavebnice tvoří programovatelná řídicí jednotka, kterou vyvinul tým z FEL ČVUT ve spolupráci s průmyslovými partnery. Stavebnici

    … více »
    Ladislav Hagara | Komentářů: 50
    29.5. 20:33 | Komunita

    Ubuntu bude pro testování nových verzí vydávat měsíční snapshoty. Dnes vyšel 1. snapshot Ubuntu 25.10 (Questing Quokka).

    Ladislav Hagara | Komentářů: 0
    29.5. 14:55 | Nová verze

    Společnost Netgate oznámila vydání nové verze 2.8.0 open source firewallové, routovací a VPN platformy pfSense (Wikipedie) postavené na FreeBSD. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    29.5. 14:00 | Nová verze

    Byla vydána nová verze 6.16 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Tor Browser byl povýšen na verzi 14.5.3. Linux na verzi 6.1.140. Další změny v příslušném seznamu.

    Ladislav Hagara | Komentářů: 0
    29.5. 12:33 | Zajímavý článek

    Člověk odsouzený za obchod s drogami daroval letos ministerstvu spravedlnosti 468 kusů kryptoměny bitcoin, které pak resort v aukcích prodal za skoro miliardu korun. Darováním se zabývá policejní Národní centrála proti organizovanému zločinu (NCOZ). Deníku N to potvrdil přímo ministr spravedlnosti Pavel Blažek (ODS). Podle resortu bylo nicméně vše v souladu s právem.

    Ladislav Hagara | Komentářů: 59
    28.5. 20:44 | Nová verze

    Svobodný a otevřený multiplatformní editor EPUB souborů Sigil (Wikipedie, GitHub) byl vydán ve verzi 2.5.0. Stejně tak doprovodný vizuální EPUB XHTML editor PageEdit (GitHub).

    Ladislav Hagara | Komentářů: 0
    Jaký je váš oblíbený skriptovací jazyk?
     (56%)
     (31%)
     (7%)
     (2%)
     (0%)
     (1%)
     (3%)
    Celkem 172 hlasů
     Komentářů: 13, poslední 30.5. 12:26
    Rozcestník

    Dotaz: Počítání českých znaků v Reg Exp

    8.9.2011 11:18 Hufy
    Počítání českých znaků v Reg Exp
    Přečteno: 377×
    Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky


    Řešení dotazu:


    Odpovědi

    8.9.2011 13:31 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.
    8.9.2011 18:15 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Sorry, asi nerozumím... Mám vypsat délku načteného řádku?
    8.9.2011 18:19 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.
    8.9.2011 18:53 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Mám tu

    while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
    print "$1 ".length($1)."\n"; # pisu levou a delku
    next;
    }

    a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.
    8.9.2011 13:34 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".
    8.9.2011 18:20 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.
    8.9.2011 15:12 ams
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Dela se to pomoci binmode, takze jak jste to zkousel?
    binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
    binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print
    
    while (<>) {
      print join ":", /^(.{66})(.*)$/;
    }
    
    8.9.2011 15:13 ams
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.
    8.9.2011 15:19 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".
    8.9.2011 18:59 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

    #!/usr/bin/perl
    use encoding ':utf-8';
    binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte
    binmode *STDOUT, ":utf8";

    my @radky;
    while (<>) {
    /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
    push @radky, $2."\n"; # pravou pulku schovam
    print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku
    next;
    }

    print @radky; # dotisknu pravy sloupec pod levy
    # jenze zacatky radku jsou rozhazene

    8.9.2011 19:09 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Přílohy:
    Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.
    Řešení 2× (Vojtěch Horký, Hufy (tazatel))
    8.9.2011 20:16 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

    Místo
    binmode STDOUT, ":utf-8";
    použijte
    use open qw(:std :utf8);
    8.9.2011 20:45 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-) Díky moc všem za rady.
    8.9.2011 19:24 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:
    $ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
    oučký kůň
    8.9.2011 19:48 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.
    8.9.2011 19:54 jurasek
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Zdar
    Kodovani souboru overis prikazem file. file HH.txt
    Zdar
    8.9.2011 20:42 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Ano, je to utf-8, dík

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.