abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 05:55 | Zajímavý projekt

Dle příspěvku na blogu zaměstnanců CZ.NIC byl spuštěn ostrý provoz služby Honeypot as a Service (HaaS). Zapojit se může kdokoli. Stačí se zaregistrovat a nainstalovat HaaS proxy, která začne příchozí komunikaci z portu 22 (běžně používaného pro SSH) přeposílat na server HaaS, kde honeypot Cowrie (GitHub) simuluje zařízení a zaznamenává provedené příkazy. Získat lze tak zajímavé informace o provedených útocích. K dispozici jsou globální statistiky.

Ladislav Hagara | Komentářů: 0
dnes 04:44 | Komunita

Před týdnem společnost Feral Interactive zabývající se vydáváním počítačových her pro operační systémy macOS a Linux oznámila, že pro macOS a Linux vydají hru Rise of the Tomb Raider. Včera společnost oznámila (YouTube), že pro macOS a Linux vydají také hru Total War Saga: Thrones of Britannia. Verze pro Windows by měla vyjít 19. dubna. Verze pro macOS a Linux krátce na to.

Ladislav Hagara | Komentářů: 0
včera 21:33 | Nová verze

Byla vydána nová major verze 7.10 svobodného systému pro řízení vztahů se zákazníky (CRM) s názvem SuiteCRM (Wikipedie). Jedná se o fork systému SugarCRM (Wikipedie). Zdrojové kódy SuiteCRM jsou k dispozici na GitHubu pod licencí AGPL.

Ladislav Hagara | Komentářů: 0
včera 16:44 | Nová verze

Byla vydána nová verze 0.30 display serveru Mir (Wikipedie) a nová verze 2.31 nástrojů snapd pro práci s balíčky ve formátu snap (Wikipedie). Z novinek Miru vývojáři zdůrazňují vylepšenou podporu Waylandu nebo možnost sestavení a spouštění Miru ve Fedoře. Nová verze snapd umí Mir spouštět jako snap.

Ladislav Hagara | Komentářů: 0
včera 14:00 | Komunita

Na Indiegogo běží kampaň na podporu Sway Hackathonu, tj. pracovního setkání klíčových vývojářů s i3 kompatibilního dlaždicového (tiling) správce oken pro Wayland Sway. Cílová částka 1 500 dolarů byla vybrána již za 9 hodin. Nový cíl 2 000 dolarů byl dosažen záhy. Vývojáři přemýšlejí nad dalšími cíli.

Ladislav Hagara | Komentářů: 1
včera 11:11 | Nasazení Linuxu

Před dvěma týdny se skupina fail0verflow (Blog, Twitter, GitHub) pochlubila, že se jim podařilo dostat Linux na herní konzoli Nintendo Switch. O víkendu bylo Twitteru zveřejněno další video. Povedlo se jim na Nintendo Switch rozchodit KDE Plasmu [reddit].

Ladislav Hagara | Komentářů: 3
včera 05:55 | Komunita

Byla vydána vývojová verze 3.2 softwaru Wine (Wikipedie), tj. softwaru, který vytváří aplikační rozhraní umožňující chod aplikací pro Microsoft Windows také pod GNU/Linuxem. Z novinek lze zdůraznit například podporu HID gamepadů. Aktuální stabilní verze Wine je 3.0, viz verzování. Nejistá je budoucnost testovací větve Wine Staging s řadou experimentálních vlastností. Současní vývojáři na ni již nemají čas. Alexandre Julliard, vedoucí projektu Wine, otevřel v diskusním listu wine-devel diskusi o její budoucnosti.

Ladislav Hagara | Komentářů: 2
18.2. 16:55 | Komunita

Do 22. března se lze přihlásit do dalšího kola programu Outreachy (Wikipedie), jehož cílem je přitáhnout do světa svobodného a otevřeného softwaru lidi ze skupin, jež jsou ve světě svobodného a otevřeného softwaru málo zastoupeny. Za 3 měsíce práce, od 14. května do 14. srpna 2018, v participujících organizacích lze vydělat 5 500 USD.

Ladislav Hagara | Komentářů: 56
17.2. 15:44 | Komunita

Nadace The Document Foundation (TDF) zastřešující vývoj svobodného kancelářského balíku LibreOffice dnes slaví 6 let od svého oficiálního vzniku. Nadace byla představena 28. září 2010. Formálně ale byla založena až 17. února 2012. Poslední lednový den byl vydán LibreOffice 6.0. Dle zveřejněných statistik byl za dva týdny stažen již cca milionkrát.

Ladislav Hagara | Komentářů: 1
17.2. 04:44 | Bezpečnostní upozornění

CSIRT.CZ upozorňuje, že byla vydána nová verze 1.2.3 svobodného routovacího démona Quagga (Wikipedie) přinášející několik bezpečnostních záplat. Při nejhorší variantě může dojít až k ovládnutí běžícího procesu, mezi dalšími možnostmi je únik informací z běžícího procesu nebo odepření služby DoS. Konkrétní zranitelnosti mají následující ID CVE-2018-5378, CVE-2018-5379, CVE-2018-5380 a CVE-2018-5381.

Ladislav Hagara | Komentářů: 0
Který webový vyhledávač používáte nejčastěji?
 (2%)
 (28%)
 (62%)
 (2%)
 (3%)
 (1%)
 (1%)
 (1%)
Celkem 390 hlasů
 Komentářů: 34, poslední 14.2. 18:44
    Rozcestník

    Filtrujme čtivé texty z Projektu Gutenberg 1

    23. 3. 2016 | Karel Kulhavý | Návody | 2976×

    Projekt Gutenberg nabízí přes 20 gigabajtů většinou anglické literatury s prošlým copyrightem. Chceme-li si ale pěkně počíst, narážíme na spoustu děl psaných archaickou angličtinou. Jak vyfiltrovat čtivá díla jednoduše pomocí unixových nástrojů?

    Projekt Gutenberg nenabízí žádné pokročilé rozhraní, které by umožnilo jednotlivá díla vyhledávat pomocí komplexních statistických kritérií. K dispozici jsou offline katalogy, top 100 knih. Top 100 vévodí anglický román rodinného života Pýcha a Předsudek od Jane Austenové z roku 1813 a na druhém místě je Alenka v říši divů. Na čtvrtém místě je Kafka se svou povídkou Proměna.

    Online není možné soubory filtrovat či řadit podle kritérií jako např. četnost výskytu archaismů z dané množiny slov, výskyt přímé řeči a pod. Proto si budeme muset data z Projektu Gutenberg stáhnout nejdříve na náš disk, abychom s nimi mohli pracovat.

    Co je projekt Gutenberg? Projekt Gutenberg je nejstarší existující digitální knihovnou. Založen byl již v roce 1971 Michaelem S. Hartem, americkým veteránem korejské války, který zemřel roku 2011 ve věku 64 let. Centrální idea projektu je publikovat texty, které jsou public domain, protože jim prošel copyright. V každém případě zde tedy najdeme díla řeckých filozofických velikánů. Co když ale intelektuálně sofistikované údery z nejzazších hlubin minulosti nejsou zrovna tím, co bychom chtěli číst, a raději bychom preferovali třeba nějaký román s napínavým příběhem?


    Michael S. Hart (vlevo) a Gregory Newby z Projektu Gutenberg v r. 2006.
    Zdroj: "Marcello" z Wikimedia Commons pod licencí GFDL 1.2

    Od roku 1971, kdy počítače ještě vypadaly jako automatické pračky, projekt Gutenberg nasbíral přes 50 tisíc literárních děl, které jsou uspořádány v souborové hierarchii textových souborů, kde se často vyskytují vícenásobné kopie toho samého souboru, které se liší třeba jen korekturami nebo formátováním mezer. Soubory jsou obsahují prostý text v kódování ASCII nebo UTF-8.

    50 tisíc souborů? To je tedy slušné cvičení na souborový systém. Posuďte sami. Pustíme tento příkaz pouze na zjištění, kolik ten adresář včetně podadresářů zabírá místa. Kontrolka disku se rozsvítí jako baterka a z disku je čteno průměrnou rychlostí cca 1,3 MB/s, ač se jedná jen o souborová metadata. Po 6 minutách kontrolka disku konečně zhasne a dostaví se kýžený výsledek 22 gigabajtů. Toto je doslova příkaz, který pustíte a můžete si jít udělat kafe:

    $ time du -sm pg
    21773	pg
    
    real	5m54.408s
    user	0m3.518s
    sys	0m18.034s

    Nejdříve si toto velké sousto tedy budeme muset zkopírovat z Projektu Gutenberg na náš disk. Použijeme k tomu Rsync:

     rsync --progress -z -urv -v --exclude='GUTINDEX*' --exclude='*-8.txt' --include='*.txt' \
     --include='*/' --exclude='*' --delete --min-size=1 --max-size=10000000 \
    ftp@ftp.ibiblio.org::gutenberg pg

    --progress zapíná indikaci probíhajícího stahování. -z zapíná kompresi, -u přenáší pouze soubory, které byly obnoveny (podle časového razítka) od doby, kdy jsme je stáhli. -r je zcela nezbytná rekurze, pokud chceme stáhnout víc než jednotlivý soubor. -v zvyšuje množství informativních hlášek. Že --exclude a --include vyřazují a zařazují určité druhy souborů je asi jasné, co už ale asi jasné být nemusí je, že --exclude a --include mezi sebou interagují nějakým komplexním způsobem, který je popsán v sekci FILTER RULES manuálové stránky rsyncu, která má 2500 řádků a jak bývá u manuálových stránek zvykem, u popisu --exclude na to čtenář není upozorněn. Takže se to dozví pouze tehdy, když si manuálovou stránku přečte celou jako román. Proto má uživatel v zásadě na výběr dvě možnosti: buď zemře sešlostí věkem dřív, než ten rsync vůbec pustí, a nebo se rsync bude chovat jinak, než uživatel bude věřit, že by se měl chovat, a uživatel nebude chápat proč.

    Další přepínače si vysvětlíme v příštím dílu seriálu.

           

    Hodnocení: 50 %

            špatnédobré        

    Nástroje: Tisk bez diskuse

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Nikola Ciprich avatar 23.3.2016 10:15 Nikola Ciprich | skóre: 23 | blog: NiX_blog | Palkovice
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    mno na seriál se těším, i když rozsah prvního dílu mě kapánek zklamal.. :(
    Did you ever touch the starlight ? Dream for a thousand years? Have you ever seen the beauty Of a newborn century?
    Marián Kyral avatar 23.3.2016 13:05 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Tak v příštím díle si probereme další dvě volby a uvaříme si další kafe :-D
    23.3.2016 19:41 n
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    +1
    24.3.2016 06:28 dutá palice
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Takže raději delší články včetně omáčky a velké přílohy i když už se tam nebude vejít to hlavní?
    Fluttershy, yay! avatar 24.3.2016 09:43 Fluttershy, yay! | skóre: 81 | blog:
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Nebo delší články bez omáčky…?
    23.3.2016 14:33 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    50 tisíc souborů? To je tedy slušné cvičení na souborový systém. Posuďte sami.

    Hm…

    mike@unicorn:~/work/git/kernel-upstream> time du -sm .
    1862    .
    
    real    0m1.698s
    user    0m0.132s
    sys     0m0.944s
    mike@unicorn:~/work/git/kernel-upstream> find . -type f | wc -l
    54299
    
    23.3.2016 17:13 Georgius
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Tak nevím, co používá autor blogu, ze srandy jsem to zkusil na disku připojeném z NASky gigovou sítí přes NFS (ten find trvá docela dlouho ...) nad adresářem s 10 podadresáři, z nichž v každém bylo 26728 souborů:
    $ time du -sm .
    88245	.
    
    real	3m0.174s
    user	0m0.636s
    sys	0m8.708s
    
    $ find . -type f | wc -l
    257280
    
    Ale fakt je, že ten find trval věky ...
    
    
    
    
    23.3.2016 18:13 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    autor blogu

    Kéž by… on je to ale článek.

    24.3.2016 06:32 dutá palice
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Nepoužíváš slavné BTRFS?
    24.3.2016 07:22 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Ne, tohle bylo na ext4 (a pro pořádek, předtím jsem flushnul cache).
    24.3.2016 01:09 František Koudelka
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Trochu se mi nezdá, že by stihl Korejskou válku, cituji "Založen byl již v roce 1971 Michaelem S. Hartem, americkým veteránem korejské války, který zemřel roku 2011 ve věku 64 let."
    24.3.2016 10:12 miky
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Njn, co dodat k autorovi zmineneho clanku, ona veta na strankach Gutenberga zni totiz jinak "and served in the Army in Korea during the Vietnam era" ...
    Petr Tomášek avatar 24.3.2016 10:31 Petr Tomášek | skóre: 37 | blog: Vejšplechty
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    Probůh, vybírat literaturu podle počtu archaismů... *FACEPALM*
    Václav 24.3.2016 15:37 Václav "Darm" Novák | skóre: 26 | blog: Darmovy_kecy | Bechyně / Praha
    Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 1
    No jestli má problém přeložit i výše zmíněnou větu o minulosti jednoho z autorů, ani se tomu strachu z archaismů nedivím :)
    Cross my heart and hope to fly, stick a cupcake in my eye!

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.