abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 14:11 | IT novinky

    Jihokorejská kryptoměnová burza Bithumb přiznala vážné selhání interních systémů, které ji vystavilo riziku sabotáže a nezabránilo chybné transakci v hodnotě přes 40 miliard dolarů (814 miliard Kč). Druhá největší kryptoměnová burza v Koreji minulý týden při propagační akci omylem rozeslala zákazníkům zhruba 620 000 bitcoinů místo 620 000 wonů (8700 Kč). Incident vyvolal pokles ceny bitcoinu o 17 procent. Většinu

    … více »
    Ladislav Hagara | Komentářů: 0
    dnes 13:55 | Nová verze

    Google Chrome 145 byl prohlášen za stabilní. Nejnovější stabilní verze 145.0.7632.45 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Zpátky je podpora grafického formátu JPEG XL, viz Platform Status. Odstraněna byla před třemi lety. Nový dekodér JPEG XL jxl-rs je napsán v Rustu. Zobrazování JPEG XL lze vyzkoušet na testovací stránce. Povolit lze v nastavení chrome://flags (Enable JXL image format).

    Ladislav Hagara | Komentářů: 0
    včera 22:44 | Nová verze

    Byla vydána nová verze 1.26 programovacího jazyka Go (Wikipedie). Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 18:11 | Nová verze

    CrossOver, komerční produkt založený na Wine, byl vydán ve verzi 26. Přehled novinek v ChangeLogu. CrossOver 26 vychází z Wine 11.0, D3DMetal 3.0, DXMT 0.72, Wine Mono 10.4.1 a vkd3d 1.18. Do 17. února lze koupit CrossOver+ se slevou 26 %.

    Ladislav Hagara | Komentářů: 10
    včera 14:22 | Komunita

    KiCad je nově k dispozici také jako balíček ve formátu AppImage. Stačí jej stáhnout, nastavit právo na spouštění a spustit [Mastodon, 𝕏].

    Ladislav Hagara | Komentářů: 0
    včera 13:22 | Zajímavý projekt

    Šenčenská firma Seeed Studio představila projekt levného robotického ramena reBot Arm B601, primárně coby pomůcky pro studenty a výzkumníky. Paže má 6 stupňů volnosti, dosah 650 mm a nosnost 1,5 kilogramu, podporované platformy mají být ROS1, ROS2, LeRobot, Pinocchio a Isaac Sim, krom toho bude k dispozici vlastní SDK napsané v Pythonu. Kompletní seznam součástek, videonávody a nejspíš i cena budou zveřejněny až koncem tohoto měsíce.

    … více »
    NUKE GAZA! 🎆 | Komentářů: 7
    včera 11:11 | Nová verze

    Byla vydána nová verze 36.0, tj. první stabilní verze nové řady 36, svobodného multimediálního centra MythTV (Wikipedie). Přehled novinek a vylepšení v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 1
    včera 04:44 | Nová verze

    Byl vydán LineageOS 23.2 (Mastodon). LineageOS (Wikipedie) je svobodný operační systém pro chytré telefony, tablety a set-top boxy založený na Androidu. Jedná se o nástupce CyanogenModu.

    Ladislav Hagara | Komentářů: 3
    včera 03:44 | IT novinky

    Od března budou mít uživatelé Discordu bez ověření věku pouze minimální práva vhodná pro teenagery.

    Ladislav Hagara | Komentářů: 23
    9.2. 23:43 | IT novinky

    Evropská komise (EK) předběžně shledala čínskou sociální síť pro sdílení krátkých videí TikTok návykovým designem v rozporu s unijním nařízením o digitálních službách (DSA). Komise, která je exekutivním orgánem Evropské unie a má rozsáhlé pravomoci, o tom informovala v tiskovém sdělení. TikTok v reakci uvedl, že EK o platformě vykreslila podle něj zcela nepravdivý obraz, a proto se bude bránit.… více »

    Ladislav Hagara | Komentářů: 20
    Které desktopové prostředí na Linuxu používáte?
     (19%)
     (6%)
     (0%)
     (10%)
     (26%)
     (3%)
     (5%)
     (2%)
     (12%)
     (28%)
    Celkem 835 hlasů
     Komentářů: 25, poslední 3.2. 19:50
    Rozcestník

    Filtrujme čtivé texty z Projektu Gutenberg 7

    18. 7. 2016 | Karel Kulhavý | Návody | 10560×

    V předchozím dílu jsme viděli, že vypnutí UTF-8 v příkazech mělo za následek až sedminásobné zrychlení. Využijeme to pro zrychlené řazení souborů a inspekci, co v nich je.

    Řešení tohoto přídavného, v nedávné minulosti vzniklého problému není úplně jednoduché: musíme přemýšlet, před které příkazy LC_ALL=C napsat, protože když to napíšeme příliš často, UTF-8 se nezpracuje tak, jak se zpracovat má. Nestačí to psát jen občas – v modelovém příkladě použití pouze jednoho LC_ALL=C vedlo pouze ke trojnásobnému zrychlení. Navíc – čekali byste, že to výrazně lépe pomůže u druhého sortu, který zpracovával menší počet řádků než sort první?

    HWN
    Na sborník řečí všech amerických prezidentů narazíme dále v tomto díle.
    Zdroj: C-SPAN

    Vyrobíme si tedy statistiku rozložení délek souboru ještě jednou, úplně stejnou, ale zato mnohem rychleji. Vpravo bude délka souboru, vlevo jak často se vyskytuje. Zobrazíme 20 nejčastěji se vyskytujících délek, seřazených sestupně podle toho, jak často se vyskytují. Závorky kolem exportu zamezí, aby nám nastavení LC_ALL=C v shellu zůstalo permanentně, až do doby odhlášení se ze shellu.

    $ ( export LC_ALL=C; cut -f 7 -d ' ' clean2.txt  |sort -n |uniq -c | sort -nrk1 | head -n 20)
         23 11009
         15 12911
         13 21607
         12 12888
         12 12867
          9 1405
          9 12927
          9 12900
          9 12897
          9 12887
          8 21586
          8 12891
          8 12858
          7 12912
          7 12879
          7 12864
          6 59
          6 12906
          6 12905
          6 12890

    Jak je možné, že délka 11009 se vyskytuje tak často – 23krát – a jiná délka 12890, která se liší o pouhých 17 procent, se vyskytuje jen šestkrát? Záhadu se nám podaří vyřešit, aniž bychom se podívali do jediného souboru – použijeme pouze informace z výpisu adresářů:

    $ cut -d ' ' -f 7,11- clean2.txt | LC_ALL=C grep "^11009 "
    11009 pg/1/2/7/2/12721/readme-license.txt
    11009 pg/1/2/7/2/12724/readme-license.txt
    11009 pg/1/2/7/2/12723/readme-license.txt
    11009 pg/1/2/7/2/12720/readme-license.txt
    11009 pg/1/2/7/2/12722/readme-license.txt
    [...]
    11009 pg/1/2/7/1/12719/readme-license.txt
    11009 pg/1/2/7/1/12715/readme-license.txt
    11009 pg/1/2/7/1/12713/readme-license.txt
    11009 pg/1/2/7/1/12711/readme-license.txt

    Jsou to všechno zřejmě identické kopie nějakého licenčního textu! A co ostatní mysteriózní čísla? Délka 12911 je stejného druhu jako délka 11009. 21607 je ale už něco jiného: je to jakýsi prázdný skutečný text, který nám říká, že příslušné dílo sestává zcela z obrázků, a proto se máme podívat na HTML verzi, kde jsou tyto obrázky dostupné. To vysvětluje, proč jsou všechny tyto soubory tohoto druhu stejně dlouhé. Mysteriózní číslo 12888 přísluší k jakýmsi audio knihám nahraným jako MP3. Ostatní mysteriózní často se opakující délky si můžete prozkoumat sami, co se pod nimi skrývá.

    Možná vyrobíme užitečnější statistiku, když budeme řadit podle délky souboru místo podle toho, jak často se délka souboru opakuje. Stačí změnit parametry druhého sortu:

    $ ( export LC_ALL=C; cut -f 7 -d ' ' clean2.txt  |sort -n |uniq -c | sort -nk2 | head -n 20)
          2 52
          6 59
          1 68
          2 76
          1 78
          5 80
          1 83
          1 95
          1 130
          1 145
          1 158
          1 185
          1 203
          1 274
          1 301
          1 312
          1 331
          1 336
          1 344
          1 345

    HWN
    Na Ságu rodu Forsytů, za kterou padla Nobelova cena, dojde také.
    Zdroj: Nakladatelství Omega

    Co obsahují nejdelší soubory na Projektu Gutenberg?

    Dozvěděli jsme se v zásadě to, že se nic nedozvíme: každý soubor má svou vlastní délku, která se neopakuje. Co tedy seřadit soubory od těch největších? Co za zábavné čtivo v nich bude?

    $ cut -d ' ' -f 7,11- clean2.txt |LC_ALL=C sort -nrk1|head -n 10
    
    9877862 pg/5/0/5/5050/old/suall11.txt
    9873495 pg/5/0/5/5050/old/suall10.txt
    9840067 pg/4/9/0/4900/old/jm00v10.txt
    9790441 pg/4/9/0/4900/4900.txt
    9612317 pg/5/4/0/5400/old/wc63w10.txt
    9540257 pg/5/4/0/5400/5400.txt
    9472285 pg/3/2/5/3254/old/glent12.txt
    9459826 pg/3/2/5/3254/3254.txt
    9206456 pg/2/7/3/4/27348/27348.txt
    9201354 pg/2/7/5/0/27509/27509.txt

    Mínus za jedenáctkou je pro případ, že by jméno souboru obsahovalo mezeru, což na Unixech může. cut by to interpretoval jako další sloupec, takto se ho dozvíme celé. Takových minových polí, kde člověk musí myslet na různé neobvyklé výjimky, je v Unixu bohužel mnoho. Je to dáno použitím in-band signallingu, tedy speciálních znaků, jako jsou mezery, uvozovky, lomítka apod., se speciálním významem. Pokud programátor nemá v daný moment dostatečnou fantazii a neuvědomí si, co všechny by mohlo způsobit problém a na co všechno musí myslet, vyprodukuje kód který bude fungovat, projde testy, ale selže v okamžiku kdy ho uživatel nakrmí souborem, jehož jméno obsahuje mezeru.

    Myslíte, že se tento problém dá řešit testováním? Ale jestliže si programátor neuvědomí, že by mezera mohla způsobit problém, proč by si to měl uvědomit návrhář testu a zakomponovat ji do testu? Je návrhář testu nějaký jiný živočišný druh než programátor, který je na rozdíl od člověka s omezenou kapacitou předvídat neobvyklé problémy vševědoucí a má nekonečně velkou fantazii?

    Podle mě se takový problém dá spolehlivě řešit použitím out-of-band signallingu, tedy např. binárních hlaviček s délkami při předávání příkazů. To by ale byl takový zásah do koncepce Unixu, že mi nepřijde realistický. Jako poučné varování to ale mohou vzít čtenáři, kteří navrhují nový software nebo datový formát, aby problému tohoto druhu předešli a zvážili out-of-band signaling, když to ještě jde.

    Podíváme se do souborů a abychom jejich jména nemuseli opisovat, z výstupu příkazu vystřihneme druhý sloupec a předáme ho jako argument vi na příkazovou řádku. V souborech se pak budeme moci pohybovat pomocí :n (následující soubor) a :N (předchozí soubor).

    vi -R $(cut -d ' ' -f 7,11- clean2.txt |LC_ALL=C sort -nrk1|cut -d ' ' -f 2- | head -n 9)

    Přepínač -R uvede vi do režimu pro čtení, takže si literární díla omylem nezměníme. Co tyto největší soubory tedy obsahují?

    • Complete State of the Union Addresses, from 1790 to the Present – řeči amerických prezidentů.
    • Totéž pro jistotu znovu.
    • Historie Nizozemí od Johna Lohtropa Motleyho z roku 1855.
    • Zase jednou to samé.
    • Sborník děl Winstona Churchilla (lehká beletrie se nám začíná hromadit, že? ;-) ).
    • Zase Churchill.
    • Kompletní díla Johna Galsworthyho - věci jako Sága rodu Forsytů – zde se už vyskytuje dost přímé řeči.
    • Zase jednou Galsworthy.
    • Edice World CIA Factbook z roku 2007. Hodnotný sborník informací, jako čtivo na pláž ale posloužit nemusí.

    HWN
    Aktuální obálka World CIA Factbook

    Ukončíme zkoumání délek souborů a v příštím dílu přistoupíme k jejich obsahu.

           

    Hodnocení: 60 %

            špatnédobré        

    Nástroje: Tisk bez diskuse

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.