abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

    dnes 09:00 | Bezpečnostní upozornění

    V X.Org v libX11 do 1.8.7 a libXpm do 3.5.17 bylo nalezeno a v upstreamu opraveno 5 bezpečnostních chyb (CVE-2023-43785, CVE-2023-43786, CVE-2023-43787, CVE-2023-43788 a CVE-2023-43789). Dvě nejstarší jsou s námi 35 let. Obsaženy byly již v X11R2 vydaném v únoru 1988.

    Ladislav Hagara | Komentářů: 2
    dnes 08:00 | Bezpečnostní upozornění

    Byly publikovány informace o bezpečnostní chybě Looney Tunables aneb CVE-2023-4911 v glibc ld.so. Útočník ji může využít k lokální eskalaci práv. Vyzkoušeno na výchozích instalacích linuxových distribucí Fedora 37 a 38, Ubuntu 22.04 a 23.04 a Debian 12 a 13. Chyba byla do glibc zavlečena v dubnu 2021. Detaily v txt.

    Ladislav Hagara | Komentářů: 0
    včera 20:33 | Komunita

    Na Kickstarteru byla spuštěna crowdfundingová kampaň na podporu telefonu Murena 2 s /e/OS. Telefon má 2 hardwarové přepínače. Prvním lze jednoduše vypnout kamery a mikrofony. Druhým se lze odpojit od sítí.

    Ladislav Hagara | Komentářů: 2
    včera 20:11 | Bezpečnostní upozornění

    Společnost Qualcomm publikovala říjnový bezpečnostní bulletin. V úvodu informuje, že bezpečnostní chyby CVE-2023-33106, CVE-2023-33107, CVE-2022-22071 a CVE-2023-33063 jsou cíleně využívány útočníky. O CVE-2022-22071 se píše už v loňském květnovém bulletinu. Detaily o zbylých chybách jsou k dispozici OEM partnerům. Veřejně budou k dispozici až s vydáním prosincového bulletinu.

    Ladislav Hagara | Komentářů: 0
    včera 13:55 | Nová verze

    Byla vydána nová verze 5.18 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Přehled změn v příslušném seznamu. Tor Browser byl povýšen na verzi 12.5.6. Tor na verzi 0.4.8.6.

    Ladislav Hagara | Komentářů: 0
    včera 10:55 | Nová verze

    Šifrovací nástroj VeraCrypt v menším vydání 1.26.7 nejen opravuje chyby a aktualizuje podporované algoritmy (podrobnosti v poznámkách vydání), ale také přestává podporovat původní svazky TrueCrypt.

    Fluttershy, yay! | Komentářů: 0
    včera 09:00 | Pozvánky

    V sobotu 7. října proběhne Maker Faire Liberec, festival plný workshopů, interaktivních činností a především nadšených a zvídavých lidí.

    Ladislav Hagara | Komentářů: 0
    včera 08:00 | Zajímavý článek Ladislav Hagara | Komentářů: 0
    2.10. 23:44 | Komunita

    Ubuntu Summit 2023 proběhne od 3. do 5. listopadu v Rize.

    Ladislav Hagara | Komentářů: 0
    2.10. 19:33 | Nová verze

    Programovací jazyk Python byl vydán v nové major verzi 3.12.0. Podrobný přehled novinek v Changelogu.

    Ladislav Hagara | Komentářů: 0
    Raději
     (55%)
     (45%)
    Celkem 55 hlasů
     Komentářů: 3, poslední 2.10. 23:31
    Rozcestník

    Dotaz: Počítání českých znaků v Reg Exp

    8.9.2011 11:18 Hufy
    Počítání českých znaků v Reg Exp
    Přečteno: 358×
    Prosím o radu s regulárními výrazy v Perlu (5.10.1 pod Kubuntu 11.04) Mám text ve dvou sloupcích a rozděluji ho pomocí /^(.{66})(.*)$/ na ty dvě půlky. Jenže když tam jsou české znaky, každý se počítá za dva, vypadá to, že {66} počítá byty, ne znaky. Mám nastaveno use encoding 'utf-8'; Zkoušel jsem locale a binmode, ale bez výsledku. Strávil jsem dvě hodiny čtením dokumentace a mám z toho tak akorát zamotanou hlavu. Umíte mi někdo poradit? Díky


    Řešení dotazu:


    Odpovědi

    8.9.2011 13:31 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Máte ten text načtený správně v kódování UTF-8? Zkuste si třeba zjistit délku toho textu nebo vypsat některý znak s diakritikem – uvidíte, zda vstup Perl přečetl správně jako UTF-8 znaky, nebo zda to načítáte špatně a Perl to chápe jako ASCII.
    8.9.2011 18:15 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Sorry, asi nerozumím... Mám vypsat délku načteného řádku?
    8.9.2011 18:19 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Třeba. Prostě nějak zjistit, zda to Perl vidí jako bajty nebo jako znaky.
    8.9.2011 18:53 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Mám tu

    while (<>) { /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
    print "$1 ".length($1)."\n"; # pisu levou a delku
    next;
    }

    a píše to všude délku 70, jenže ne pod sebe, je vidět, že každý řádek je jinak dlouhý. Celý prográmek dám k další odpovědi.
    8.9.2011 13:34 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Základní operátory regulárních výrazů, jako je ".", fungují z výkonnostních důvodů nad bajty, nikoliv znaky. Pokud chcete vybírat znaky, použijte operátor "\W".
    8.9.2011 18:20 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Jenže \W nebere písmena. Zkouším [\w\W], ale dělá to totéž.
    8.9.2011 15:12 ams
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Dela se to pomoci binmode, takze jak jste to zkousel?
    binmode *STDIN, "utf8";  # Ted tecka = znak a ne byte
    binmode *STDOUT, "utf8"; # Aby nebyly Warnings: wide character in print
    
    while (<>) {
      print join ":", /^(.{66})(.*)$/;
    }
    
    8.9.2011 15:13 ams
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Samozrejme tam musi byt ":utf8". binmode *STDIN, ":utf8" atd.
    8.9.2011 15:19 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    To sice přepne matchování z bajtů na code pointy, ale tečka potom stále není znak, protože některé znaky mohou být tvořené více code pointy, třeba u kombinované diakritiky. Na znaky je právě ten operátor "\W".
    8.9.2011 18:59 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Pro jistotu dávám celý "program" a jestli přijdu na to, jak se to dělá, přidám i zdrojová data.

    #!/usr/bin/perl
    use encoding ':utf-8';
    binmode *STDIN, ":utf8"; # Ted tecka = znak a ne byte
    binmode *STDOUT, ":utf8";

    my @radky;
    while (<>) {
    /^([\w\W]{70})(.*$)/; # rozdelim radek na dva sloupce
    push @radky, $2."\n"; # pravou pulku schovam
    print "$1 ".length($1)."\n"; # levou pisu rovnou - s udajnym poctem znaku
    next;
    }

    print @radky; # dotisknu pravy sloupec pod levy
    # jenze zacatky radku jsou rozhazene

    8.9.2011 19:09 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Přílohy:
    Vkládám zdrojová data HH.txt a výsledek, který dostávám bbb.txt Pokud mi to někdo dokáže vysvětlit, budu neskonale vděčen.
    Řešení 2× (Vojtěch Horký, Hufy (tazatel))
    8.9.2011 20:16 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Řešení je popsané třeba zde: How do I read UTF-8 with diamond operator (<<>>)?.

    Místo
    binmode STDOUT, ":utf-8";
    použijte
    use open qw(:std :utf8);
    8.9.2011 20:45 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    To je ono! A dokonce jsem asi i pochopil v čem je ten problém :-) Díky moc všem za rady.
    8.9.2011 19:24 Sten
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Pardon, Unicodový znak je \X. Bohužel, teď nemůžu vyzkoušet ty vaše soubory, mám Perl akorát přes SSH v mobilu:
    $ perl -pe 'use encoding "utf8";s/^\X{4}//' <<<'Žluťoučký kůň' 
    oučký kůň
    8.9.2011 19:48 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Díky, ale ani \X nepomáhá. Musí být špatně něco jiného... Ten vstupní soubor přitom opravdu vypadá na utf8, aspoň pokud dokážu posoudit.
    8.9.2011 19:54 jurasek
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Zdar
    Kodovani souboru overis prikazem file. file HH.txt
    Zdar
    8.9.2011 20:42 Hufy
    Rozbalit Rozbalit vše Re: Počítání českých znaků v Reg Exp
    Ano, je to utf-8, dík

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.