abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 17:33 | Komunita

Byly zveřejněny videozáznamy přednášek z Fedora 28 Release Party v Brně konané 5. června.

Ladislav Hagara | Komentářů: 0
dnes 13:11 | IT novinky

Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Dle očekávání se nejvýkonnějším superpočítačem stal superpočítač Summit. Český superpočítač Salomon klesl na 139. místo. Další přehledy a statistiky na stránkách projektu.

Ladislav Hagara | Komentářů: 0
dnes 09:00 | Nová verze

Po téměř 13 měsících vývoje od vydání verze 5.26 byla vydána nová stabilní verze 5.28 programovacího jazyka Perl. Do vývoje se zapojilo 77 vývojářů. Změněno bylo přibližně 730 tisíc řádků v 2 200 souborech. Přehled novinek a změn v podrobném seznamu.

Ladislav Hagara | Komentářů: 5
dnes 05:55 | Komunita

Při prvním spuštění Ubuntu 18.04 LTS (Bionic Beaver) je spuštěn nástroj Ubuntu Report. Pokud uživatel souhlasí, jsou pomocí tohoto nástroje odeslány do Canonicalu informace o daném počítači (doba instalace, počet procesorů, rozlišení displeje, velikost paměti, časová zóna, ...). Will Cooke, vedoucí týmu Ubuntu Desktop, zveřejnil na blogu Canonicalu první získané statistiky. Infografika na It's FOSS.

Ladislav Hagara | Komentářů: 0
včera 09:55 | Nová verze

Byl vydán Debian 8.11, tj. jedenáctá a současně poslední opravná verze Debianu 8 s kódovým názvem Jessie. Uživatelům je doporučen přechod na Debian 9 Stretch nebo využít LTS (Debian Long Term Support). LTS podpora Debianu 8 je plánována do 30. června 2020. LTS podpora Debianu 7 Wheezy skončila 31. května 2018.

Ladislav Hagara | Komentářů: 0
včera 09:11 | IT novinky

Hodnota Bitcoinu, decentralizované kryptoměny, klesla pod 6 000 dolarů. Před půl rokem byla hodnota Bitcoinu téměř 20 000 dolarů.

Ladislav Hagara | Komentářů: 44
23.6. 12:33 | Zajímavý projekt

Kernel.org představil lore.kernel.org, tj. archiv diskusního listu vývojářů linuxového jádra LKML (Linux Kernel Mailing List) s řadou zajímavých funkcí. Archiv běží na softwaru Public Inbox.

Ladislav Hagara | Komentářů: 0
23.6. 10:55 | Nová verze

Po devíti měsících vývoje od vydání verze 10.0 byla vydána verze 11.0 open source alternativy GitHubu, tj. softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech, GitLab (Wikipedie). Představení nových vlastností v příspěvku na blogu a na YouTube.

Ladislav Hagara | Komentářů: 3
22.6. 20:44 | Nová verze

Po více než 3 měsících vývoje od vydání verze 238 oznámil Lennart Poettering vydání verze 239 správce systému a služeb systemd (GitHub, NEWS).

Ladislav Hagara | Komentářů: 65
22.6. 15:00 | Nová verze

Bylo oznámeno vydání nové stabilní verze 1.28 a beta verze 1.29 open source textového editoru Atom (Wikipedie). Přehled novinek i s náhledy v příspěvku na blogu. Podrobnosti v poznámkách k vydání. Atom 1.28 je postaven na Electronu 2.0.

Ladislav Hagara | Komentářů: 3
Jak čtete delší texty z webových stránek?
 (78%)
 (22%)
 (4%)
 (7%)
 (2%)
 (10%)
Celkem 259 hlasů
 Komentářů: 39, poslední 21.6. 17:44
    Rozcestník

    Dotaz: Počítání českých znaků v Reg Exp

    8.9.2011 11:18 Hufy
    Počítání českých znaků v Reg Exp
    Přečteno: 337×
    Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky


    Řešení dotazu:


    Odpovědi

    8.9.2011 13:31 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.
    8.9.2011 18:15 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Sorry, asi nerozumím... Mám vypsat délku načteného řádku?
    8.9.2011 18:19 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.
    8.9.2011 18:53 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Mám tu

    while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
    print "$1 ".length($1)."\n"; # pisu levou a delku
    next;
    }

    a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.
    8.9.2011 13:34 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".
    8.9.2011 18:20 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.
    8.9.2011 15:12 ams
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Dela se to pomoci binmode, takze jak jste to zkousel?
    binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
    binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print
    
    while (<>) {
      print join ":", /^(.{66})(.*)$/;
    }
    
    8.9.2011 15:13 ams
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.
    8.9.2011 15:19 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".
    8.9.2011 18:59 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

    #!/usr/bin/perl
    use encoding ':utf-8';
    binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte
    binmode *STDOUT, ":utf8";

    my @radky;
    while (<>) {
    /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
    push @radky, $2."\n"; # pravou pulku schovam
    print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku
    next;
    }

    print @radky; # dotisknu pravy sloupec pod levy
    # jenze zacatky radku jsou rozhazene

    8.9.2011 19:09 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Přílohy:
    Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.
    Řešení 2× (Vojtěch Horký, Hufy (tazatel))
    8.9.2011 20:16 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

    Místo
    binmode STDOUT, ":utf-8";
    použijte
    use open qw(:std :utf8);
    8.9.2011 20:45 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-) Díky moc všem za rady.
    8.9.2011 19:24 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:
    $ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
    oučký kůň
    8.9.2011 19:48 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.
    8.9.2011 19:54 jurasek
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Zdar
    Kodovani souboru overis prikazem file. file HH.txt
    Zdar
    8.9.2011 20:42 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Ano, je to utf-8, dík

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.