abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 11:44 | Nová verze

Glen MacArthur vydal verzi 2018.4.2 na Debianu založené linuxové distribuce optimalizované pro tvůrce audio a video obsahu AV Linux (Wikipedie). Podrobnosti v oznámení o vydání a v stotřicetistránkovém manuálu (pdf).

Ladislav Hagara | Komentářů: 0
včera 23:33 | Nová verze

Byla vydána nová stabilní verze 1.15 (1.15.1147.36) webového prohlížeče Vivaldi (Wikipedie). Z novinek lze zdůraznit možnost nastavení vlastního pozadí okna, přístup k záložkám z hlavního menu, lepší ovládatelnost v režimu celé obrazovky nebo vyřešení problémů se zvukem v HTML5. Nejnovější Vivaldi je postaveno na Chromiu 65.0.3325.183.

Ladislav Hagara | Komentářů: 0
včera 17:22 | Nová verze

Node.js Foundation, oficiální projekt konsorcia Linux Foundation, oznámila vydání verze 10.0.0 otevřeného multiplatformního prostředí pro vývoj a běh síťových aplikací napsaných v JavaScriptu Node.js (Wikipedie). Verze 10 se v říjnu stane novou aktivní LTS verzí. Podpora je plánována do dubna 2021.

Ladislav Hagara | Komentářů: 0
včera 15:33 | Nová verze

Neal Cardwell ze společnosti Google oznámil zveřejnění verze 2.0 nástroje pro testování síťového stacku packetdrill. Jde o souhrnné vydání změn z interního vývoje od roku 2013.

Michal Kubeček | Komentářů: 0
včera 13:22 | Zajímavý software

Microsoft na svém blogu oznámil, že správce knihoven pro C++ Vcpkg (VC++ Packaging Tool) lze nově používat také na Linuxu a macOS. Aktuálně je pro Linux k dispozici více než 350 knihoven [reddit].

Ladislav Hagara | Komentářů: 1
včera 12:44 | Komunita

Byly zveřejněny exploity na Nintendo Switch a platformu Tegra X1: Fusée Gelée a ShofEL2. Jejich zneužití nelze zabránit softwarovou aktualizací. Na druhou stranu exploity umožní na Nintendo Switch snadno a rychle nainstalovat Linux, viz. ukázka na YouTube. Jenom je potřeba sáhnout na hardware.

Ladislav Hagara | Komentářů: 0
včera 00:55 | Nová verze

Byla vydána verze 2.12.0 QEMU (Wikipedie). Přispělo 204 vývojářů. Provedeno bylo více než 2 700 commitů. Přehled úprav a nových vlastností v seznamu změn. Řešeny jsou také bezpečnostní chyby Meltdown a Spectre.

Ladislav Hagara | Komentářů: 7
včera 00:33 | Komunita

Google zveřejnil seznam 1 264 studentů přijatých do letošního Google Summer of Code. Přehled projektů, studentů, 212 organizací a mentorů je k dispozici na stránkách GSoC.

Ladislav Hagara | Komentářů: 0
24.4. 23:55 | Nová verze

Oracle vydal verzi 1.0 univerzálního virtuálního stroje GraalVM, který umožňuje běh programů napsaných v jazycích založených na JVM, JavaScript, LLVM bitcode a experimentálně Ruby, R a Python.

razor | Komentářů: 1
24.4. 01:22 | Zajímavý článek

Julia Evans pomocí svých kreslených obrázků proniká do Linuxu a informačních technologií. Vedle ucelených zinů publikuje také jednotlivé kreslené obrázky (RSS).

Ladislav Hagara | Komentářů: 5
Používáte na serverech port knocking?
 (3%)
 (7%)
 (46%)
 (26%)
 (18%)
Celkem 382 hlasů
 Komentářů: 29, poslední 5.4. 12:25
    Rozcestník

    Filtrujeme čtivé texty z Projektu Gutenberg 9

    3. 11. 2016 | Karel Kulhavý | Návody | 6895×

    Minule jsme vytvořili skript hledající soubory s hodně výskyty přímé řeči. Již doběhl, a tak uvidíme několik čtivých děl, které nám přinesl.

    Na výstupu skriptu bude soubor prima_rec.txt, který bude mít zase 55 tisíc řádek, protože pro každý existující soubor v něm bude jednořádková informace o tom, kolik vzorů přímé řeči se v něm vyskytuje. O počtu řádek se můžeme přesvědčit příkazem wc -l prima_rec.txt. Tento soubor prima_rec.txt si teď setřídíme, abychom se dozvěděli jména souborů, ve kterých se přímá řeč vyskytuje nejčastěji, a mohli jsme provést manuální inspekci jejich obsahu. Podíváme se na výstup příkazu LC_ALL=C sort -nrk1 prima_rec.txt |head -n 30

    8490 pg/5/4/0/5400/5400.txt
    8467 pg/5/4/0/5400/old/wc63w10.txt
    6471 pg/etext02/whewk12.txt
    6413 pg/3/4/0/3400/3400.txt
    6412 pg/etext02/whewk11.txt
    5706 pg/etext02/whewk10.txt
    4992 pg/3/2/5/3254/old/glent12.txt
    4990 pg/3/2/5/3254/3254.txt
    4980 pg/3/2/5/3254/old/glent11.txt
    4947 pg/3/2/5/3254/old/glent10.txt
    4758 pg/2/9/8/2981/old/csnva11.txt
    4752 pg/2/9/8/2981/old/csnva10.txt
    4738 pg/2/9/8/2981/2981.txt
    4114 pg/4/0/0/4000/4000.txt
    4110 pg/4/0/0/4000/old/imewk10.txt
    2323 pg/4/5/450/450.txt
    2322 pg/4/5/450/old/lenox10.txt
    2255 pg/1/1/8/1184/old/crsto12.txt
    2249 pg/1/1/8/1184/old/crsto11.txt
    2249 pg/1/1/8/1184/old/crsto10.txt
    2249 pg/1/1/8/1184/1184.txt
    2186 pg/1/8/9/9/18997/18997.txt
    2154 pg/3/0/4/3045/3045.txt
    2099 pg/etext05/8quee10.txt
    2099 pg/etext05/7quee10.txt
    1950 pg/1/5/6/2/15627/15627.txt
    1947 pg/3/1/1/0/31100/31100.txt
    1901 pg/5/2/3/5231/5231.txt
    1870 pg/3/3/5/3350/old/es12v11.txt
    1870 pg/3/3/5/3350/3350.txt

    Nejvíce přímé řeči obsahuje…

    S mocností 8490 a 8467 výskytů na nás útočí zase sborník Winstona Churchilla. Intenzity 6471, 6413 a 6412 a 5706 výskytů dosáhl sborník děl W. D. Howellse. Odkaz je na seznam jeho děl na projektu Gutenberg, který je setříděný podle popularity. Můžete tedy začít zkouškou čtiva jeho provenience, které je už u ostatních lidi oblíbené. Kdo to byl W. D. Howells? Howells byl spisovatel románů, realista. Je otec amerického realismu. Toto bych označil za první bingo v našem hledání čtivé literatury. Román bych vedle povídky považoval za nejběžnější žánr, který si pod ideou čtivé literatury představit. Wikipedie uvádí jako zmínění hodné jeho dva romány, The Rise of Silas Lapham a A Traveler from Altruria. Silas Lapham je životní příběh vzestupu od chudoby k bohatství. Traveler from Altruria je utopistický román a kritika nespoutaného kapitalismu.

    Filtrujeme čtivé texty z Projektu Gutenberg
    Benátky za časů Casanovy.
    Zdroj: Wikipedie (public domain).

    Skóre 4992, 4990, 4980, 4947 nabízí zase kompilace Galsworthyho, kterého jsme již zmínili v minulém dílu. Vidíme, že už podruhé má jeden text čtyři různé počty výskytů přímé řeči. Je to způsobeno tím, že v projektu Gutenberg jsou různé verze podle toho, jak byly postupem času týmem projektu upravovány.

    Na úroveň 4758, 4752, 4732 se dostal sborník děl Jacquese Casanovy. Když se o někom řekne, že je to casanova – ano, je to ten Casanova. Jako Jacques Casanova se podepisoval Giacomo Casanova, který je známý jako muž, jehož jméno je synonymem pro svůdce. V díle Dějiny mého života bez skrupulí popisuje svoje četná milostná dobrodružství. Byl to spisovatel, intrikát, špión a diplomat. Žil v 18. století v Benátské republice. Věděli jste, že Casanova zemřel v českém Duchcově, kde na zámku žil 13 let a pracoval jako knihovník? Nikoli ovšem knihovník projektu Gutenberg, protože ten ještě tehdy neexistoval.

    Co skrývá úroveň 4114 a 4110? Jsou to Francouzští Nesmrtelní, sborník děl různých autorů, „majstrštyky fikce“ a „korunováno Francouzskou akademií“, jak píše původní obálka v angličtině. Zřejmě se jednalo o nějakou nóbl limitovanou číslovanou sérii, neboť na straně se zlatým písmem vyvedenými nadpisy a ornamenty píšou, že vytiskli 1240 registrovaných a číslovaných sad (vícesvazkových), Gutenberg zobrazuje fotografii čísla 37. Mezi díly ve sborníku je Červená lilie od Anatole France. Červená lilie je milostný román ze soudobé společnosti o ženě, kterou z bezdůvodné žárlivosti opustí její milenec. France v roce 1921 dostal Nobelovu cenu za literaturu. Podle článku v British Medical Journal z roku 1927 byla velikost jeho mozku pouze 2/3 normální velikosti.

    Filtrujeme čtivé texty z Projektu Gutenberg
    Zámek Duchcov, kde Casanova 13 let pracoval.
    Obrázek: SchiDD via Wikimedia Commons (CC-BY-3.0

    Zbavme se duplikátů

    Viděli jsme, že literární díla nám často vychází z filtru v několika duplikátech, které se jen mírně liší. Mohli jsme si všimnout, že tyto duplikáty ve své cestě (jménech podadresářů) obsahují podadresář jménem old/. Vyfiltrujeme tedy všechny, které obsahují old a lomítko na obou stranách. Kdybychom lomítko vynechali, mohli bychom také přijít o nevinné knihy, které jen obsahují slovo old jako součást anglického názvu jejich adresáře. Vyfiltrujeme před seřazením, protože filtrace je rychlá (složitost O(n)), zatímco třídění je pomalejší (složitost O(n*log(n))).

    Manuálová stránka příkazu grep popisuje přepínač -v, který namísto aby řádky s nalezenými vzory vypisoval, tak je nevypisuje. A vypisuje místo toho ty ostatní. Provedeme tedy nejdříve tento příkaz: time LC_ALL=C grep -v /old/ prima_rec.txt > prima_rec_bez_old.txt. Ač vstupní soubor má 55 tisíc řádek a 1,7 megabajtu, příkaz se mi provedl v pouhých 25 milisekundách!

    Jak moc se nám velikost výpisu zredukovala? Výstupní soubor má 47 tisíc řádek: wc -l prima_rec_bez_old.txt. Redukce je tedy o pouhých 15 procent.

    Podíváme se tedy znovu na seřazené počty výskytů zadaného vzoru přímé řeči, tentokrát doufejme bez duplikátů. Příkaz time LC_ALL=C sort -nrk1 prima_rec_bez_old.txt |head -n 30 vyprodukuje tento výstup:

    8490 pg/5/4/0/5400/5400.txt
    6471 pg/etext02/whewk12.txt
    6413 pg/3/4/0/3400/3400.txt
    6412 pg/etext02/whewk11.txt
    5706 pg/etext02/whewk10.txt
    4990 pg/3/2/5/3254/3254.txt
    4738 pg/2/9/8/2981/2981.txt
    4114 pg/4/0/0/4000/4000.txt
    2323 pg/4/5/450/450.txt
    2249 pg/1/1/8/1184/1184.txt
    2186 pg/1/8/9/9/18997/18997.txt
    2154 pg/3/0/4/3045/3045.txt
    2099 pg/etext05/8quee10.txt
    2099 pg/etext05/7quee10.txt
    1950 pg/1/5/6/2/15627/15627.txt
    1947 pg/3/1/1/0/31100/31100.txt
    1901 pg/5/2/3/5231/5231.txt
    1870 pg/3/3/5/3350/3350.txt
    1868 pg/1/1/6/1/11615/11615.txt
    1867 pg/5/1/4/5140/5140.txt
    1845 pg/etext03/j2ahc10.txt
    1845 pg/1/4/8/3/14833/14833.txt
    1829 pg/1/6/9/1/16918/16918.txt
    1746 pg/1/9/5/0/19500/19500.txt
    1738 pg/etext03/tdcoa11.txt
    1737 pg/1/5/0/1/15013/15013.txt
    1736 pg/etext03/tdcoa10.txt
    1736 pg/3/6/1/3610/3610.txt
    1720 pg/3/6/2/3622/3622.txt
    1693 pg/2/1/5/2158/2158.txt
    
    real	0m0.159s
    user	0m0.146s
    sys	0m0.012s

    sort je skutečně pomalejší, než byl grep – 146 versus 25 milisekund, tedy 5,8krát pomalejší. V příštím dílu si vysvětlíme, proč sort také nemusel být nutně pomalejší než grep. A budeme pokračovat v inspekci literárních děl, tentokrát již většinou bez duplikátů.

           

    Hodnocení: 62 %

            špatnédobré        

    Nástroje: Tisk bez diskuse

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    3.11.2016 21:29 sid
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Takze dnes sa kona rekord v dlzke. Dokonca az tusim dva prikazy. Celkom vazne po tomto gulasi ci ako to nazvat by som vyjadril vaznu obavu o dusevne zdravie autora. Ak ma nejako zvlastne posunuty zmysel pre humor spocivajuci v tvoreni clankov plnych zbytocnych odbociek tak sa mu ospravedlnujem ale silne mi pripomina velmi starych ludi co pri rozpravani skacu od temy k teme. kyknos dufam doda spravne pomenovanie tejto poruchy:-)
    3.11.2016 22:56 Ondra
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Autor je fakt asi blazen. Prece ctivost literatury se neda hodnotit nejakym grepem nebo sortem.

    Treba rekneme, ze by v nejake cervene knihovne bylo vice prime reci nez dejme tomu v Dostojevskem. Znamena to, ze mam cist cervenou knihovnu? :D

    Pocitacova analyza textu se dela, ale zcela jiste ne timto zpusobem. Napriklad vedci zkoumali, zda Ilias a Odyssea byla napsana stejnym autorem (Homer) podle cetnosti vyskytu epitetonu. No a k tomu pouzili program.

    4.11.2016 04:48 q
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Nádherný seriál. Nejlepší čtení na tomto webu za celé roky. Komu se nelíbí, nemusí ho číst.
    4.11.2016 06:22 sid
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    ako zistit pri nejakom texte ci sa vam paci bez toho aby ste ho citali? Ale uz chapem, ze vy ste miesto citania tento serial prehnali to cez grep a vysiel vam na prvom mieste;-).
    5.11.2016 04:12 q
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Ale ne, mně ten vlastní cíl vůbec nezajímá, literaturu si vybírám jinak. Mně se hrozně líbí, jak autor přemýšlí a jak o tom píše. Nádhera.
    5.11.2016 04:14 q
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    s/mně ten/mě ten/
    13.2. 21:36 Qock
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    After all, your customers present sure get the gist of the communication even if they adjudicate to utter forth the postcard or flyer. postcard printing
    18.2. 11:34 asd
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    simply measured hashtag analysis graphAnd although each Instagram post allows up to 30 hashtags, research on the topic suggests that the optimum number of hashtags is 11. Instagram Follower Kaufen
    24.3. 18:57 adam
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    They change prices every day and offer new things every day, the services you reviewed first would have changed what it’s offering before you got to see what the last includes. Web Hosting Token
    19.4. 17:45 amelia
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    This substance is composed extremely well. Your utilization of organizing when mentioning your focuses makes your objective facts clear and straightforward. Much obliged to you. [url=https://porta-stor.com]rent storage container[/url]
    19.4. 17:46 amelia
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    This substance is composed extremely well. Your utilization of organizing when mentioning your focuses makes your objective facts clear and straightforward. Much obliged to you. rent storage container
    19.4. 20:07 anonvenom
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    20.4. 17:54 amelia
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Keep doing awesome read few posts on this site and I consider that your online journal is exceptionally intriguing and has sets of incredible data. Boston airport cab
    20.4. 21:54 chalsea
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Thanks for the blog loaded with so many information. Stopping by your blog helped me to get what I was looking for. robotics
    21.4. 08:46 minoxidil beard
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    21.4. 17:50 chalsea
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    This is a decent post. This post gives really quality data. I'm certainly going to investigate it. Truly extremely helpful tips are given here. Much thanks to you to such an extent. Keep up the acts of kindness. military jewelry
    23.4. 15:08 chalsea
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    A debt of gratitude is in order for the blog entry amigo! Keep them coming... Aanleg zwembad Limburg
    24.4. 20:33 chalsea
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Wonderful web journal. I appreciated perusing your articles. This is really an extraordinary read for me. I have bookmarked it and I am anticipating perusing new articles. Keep doing awesome! Vriesinstallaties
    včera 21:57 chalsea
    Rozbalit Rozbalit vše Re: Filtrujeme čtivé texty z Projektu Gutenberg 9
    Thank you for helping people get the information they need. Great stuff as usual. Keep up the great work!!! Cloud ERP Australia

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.