abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 23:33 | Nová verze

Opera 56, verze 56.0.3051.31, byla prohlášena za stabilní. Z novinek vývojáři upozorňují například na vylepšenou funkci vyskakovacích videí - v plovoucím rámci lze nově nastavovat hlasitost. Podrobný přehled změn v Changelogu. Přehled novinek pro vývojáře na blogu Dev.Opera. Opera 56 je postavena na Chromiu 69.

Ladislav Hagara | Komentářů: 4
včera 21:55 | Nová verze

Společnost Oracle oficiálně oznámila vydání Java SE 11 (JDK 11). Jedná se o verzi s prodlouženou podporou (LTS). Nových vlastností (JEP - JDK Enhancement Proposal) je 17. Nové verze Java SE vychází každých 6 měsíců.

Ladislav Hagara | Komentářů: 0
včera 18:44 | Nová verze

Byla vydána (en) betaverze Fedory 29. Jedná se o poslední zastávku před finálním vydáním a vzhledem k tomu, že byla zrušena alfa, tak také o první. K dispozici je v oficiálních edicích Workstation, Server a Atomic a také v podobě spinů, labů a verze pro ARM. Vydání Fedory 29 je plánováno na 30. října.

Ladislav Hagara | Komentářů: 0
včera 11:44 | Komunita

Aktuální verzi knihy Everything curl věnované řádkovému nástroji a knihovně pro přenos dat po různých protokolech curl lze koupit v papírové formě. Kniha je volně k dispozici na stránkách curlu nebo ke stažení ve formátech PDF, MOBI a EPUB. Ve spolupráci s BountyGraph byl spuštěn bug bounty program aneb za nalezení kritické bezpečnostní chyby v curlu lze vydělat aktuálně až 33 268 dolarů. Částkou 32 768 dolarů přispěl Dropbox. Curl již umí TLS

… více »
Ladislav Hagara | Komentářů: 0
včera 11:33 | Zajímavý projekt

Cloudflare spustil experimentální provoz ESNI - šifrovaného SNI (Server Name Indication), které umožňuje chránit soukromí uživatelů přistupujících k webům přes HTTPS. ESNI je podporováno zatím v testovací verzi Firefoxu. Při současném použití šifrovaného DNS (DNS-over-TLS či DNS-over-HTTPS) tak ISP či státy již nebudou mít žádnou přesnou možnost, jak kontrolovat či blokovat stránky, ke kterým uživatelé přistupují. Více viz také IETF draft.

xm | Komentářů: 0
24.9. 21:33 | Nová verze

Byla vydána nová major verze 1.8.0 open source systému pro filtrování nevyžádané pošty Rspamd (GitHub, ChangeLog). Z novinek lze zmínit nový framework selectors, optimalizaci modulu ClickHouse nebo vylepšení webového rozhraní.

Ladislav Hagara | Komentářů: 2
24.9. 18:44 | Bezpečnostní upozornění

Sabri Haddouche vytvořil stránku Browser Reaper, na které demonstruje zranitelnosti současných verzí webových prohlížečů Chrome, Safari i Firefox. Zveřejněné skripty dokážou zahltit nejen webové prohlížeče, ale v závislosti na nastavení, také celé operační systémy.

Ladislav Hagara | Komentářů: 12
23.9. 19:22 | Nová verze

Byla vydána verze 11.3 open source alternativy GitHubu, tj. softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech, GitLab (Wikipedie). Představení nových vlastností i s náhledy v příspěvku na blogu.

Ladislav Hagara | Komentářů: 0
22.9. 13:00 | Komunita

Do 30. října se lze přihlásit do dalšího kola programu Outreachy (Wikipedie), jehož cílem je přitáhnout do světa svobodného a otevřeného softwaru lidi ze skupin, jež jsou ve světě svobodného a otevřeného softwaru málo zastoupeny. Za 3 měsíce práce, od 4. prosince 2018 do 4. března 2019, v participujících organizacích lze vydělat 5 500 USD.

Ladislav Hagara | Komentářů: 118
21.9. 22:22 | Komunita

Společnost Purism představila kryptografický token Librem Key. Koupit jej lze za 59 dolarů. Token byl vyvinut ve spolupráci se společností Nitrokey a poskytuje jak OpenPGP čipovou kartu, tak zabezpečení bootování notebooků Librem a také dalších notebooků s open source firmwarem Heads.

Ladislav Hagara | Komentářů: 9
Na optické médium (CD, DVD, BD aj.) jsem naposledy vypaloval(a) data před méně než
 (14%)
 (14%)
 (20%)
 (24%)
 (24%)
 (4%)
 (0%)
Celkem 414 hlasů
 Komentářů: 35, poslední včera 09:16
Rozcestník

Filtrujme čtivé texty z Projektu Gutenberg 2

30. 3. 2016 | Karel Kulhavý | Návody | 2512×

V minulém díle jsme se dostali až k první půlce komplexních přepínačů příkazu rsync, který slouží ke stažení textových souborů projektu Gutenberg na náš disk. Postoupíme k dalším přepínačům…

--delete maže soubory, které byly mezitím smazány na zdroji, což v našem případě snad ani není důležité, a --min-size=1 se vyhne prázdným souborům. --max-size 10 megabajtů je tam kvůli perlám jako kompletní výpis genetického kódu člověka. Samozřejmě v ASCII, aby byl ještě 4x větší než ve skutečnosti. A ve více verzích. Tím si nějaký ten gigabajt ušetříme. No a na závěr je URL, které snad nemusím vysvětlovat. Nicméně mohu vysvětlit, proč rsync a ne třeba wget – wget si Projekt Gutenberg výslovně nepřeje, protože by přetěžoval jeho systém, a místo toho doporučuje rsync.

Na stránku A4 se vejde asi 2000 znaků, 10 megabajtů pak odpovídá pěti tisícům stránek. Do toho by se měl vejít i voluminózní román – nebo Bible. Co by se tam ale nemuselo vejít, je buddhistický ekvivalent Bible, Pálijský kánon:


Pálijský kánon.
Zdroj: DhJ~commonswiki z Wikimedia Commons pod licencí CC-BY-SA.

Pokud se rsync přeruší, typicky z důvodu pádu některého z defektních embedded zařízení, na kterých je dnešní spotřební Internet dle mého názoru vystavěn, je možné ho prostě znova pustit. On si ty přenesené soubory už sám přeskočí. Toto je ostatně samotná hlavní myšlenka rsyncu: na rozdíl od scp nepřenáší již jednou přenesené.

Toto přeskakování stažených souborů může trvat delší dobu a být spojeno s výpisem většího množství informativních hlášek. Při jiném použití rsyncu ale může naopak probíhat velmi rychle a bez hlášek. Odvíjí se to od odlišné situace dané nastavením přepínačů, které zřejmě umožní rsyncu někdy provést urychlující optimalizace a někdy ne. Srovnatelně komplexní rsync příkaz používám například na projektu optického pojítka Ronja, kde velikost synchronizovaného adresáře je 6,7 GB a při malé změně proběhne synchronizace rsyncem velmi rychle.

Původní příkaz rsync, ke kterému Projekt Gutenberg nabádá nedoporučím, protože stahuje všechno možné, audio nahrávky, multimediální data, strojově generované sekundární soubory. Na uvedené stránce píšou, že těch souborů jsou pak 2 milióny. Mirrorování pak trvá neúměrně dlouho:

rsync -av --del ftp@ftp.ibiblio.org::gutenberg /var/www/gutenberg

Zde si jako cvičení z Unixu, která jsme na Matfyzu mívali, uvedeme pár příkladů, jak se na stažený archív podívat.

du -sm pg

Vypíše spotřebu místa na disku v megabajtech. Není to jen součet velikostí souborů, ale započítávají se i části bloků souborového systému, které zůstaly souborem nevyužité.

find pg -type f -ls | tee filelist.txt

Vypíše všechny soubory, ale ne adresáře, ve formátu, který obsahuje kromě jména souboru i délku souboru a další informace, a současně tento výpis ukládá do souboru filelist.txt. Příkaz find bez explicitního zadání akce (-ls) vypisuje pouze cesty k souborům, ale ne jejich délku. K tomu je tam pevně zabudován -ls který má pevný formát výpisu. Vzhledem k tomu, že výpis souborů trvá dlouho (asi 55 tisíc souborů), tento výpis se pak hodí když se chceme podívat, co je v nejdelších souborech. Obsah souboru filelist.txt si ukážeme v příštím díle a budeme pokračovat dalšími příkazy pro inspekci obsahu projektu Gutenberg.

       

Hodnocení: 36 %

        špatnédobré        

Nástroje: Tisk bez diskuse

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

31.3.2016 11:45 Field
Rozbalit Rozbalit vše Proboha
Na kolik dílů se tohle dá natáhnout? To bude nejspíš nějaká variace na Ordinaci v růžové zahradě, ne?
kyknos avatar 5.4.2016 10:20 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 2
kompletní výpis genetického kódu člověka. Samozřejmě v ASCII, aby byl ještě 4x větší než ve skutečnosti.
kdyby sis to přečetl, tak bys zjistil, že by ti dva bity opravdu nestačily
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
5.4.2016 16:17 Ovocníček
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 2
Taková kacířská otázka, ale nebylo by přece jen lepší knížku postaru vytipovat předem a stáhnout ručně? Takhle koukám, že jim linuxák hračička sežere bw za celej archiv, aby to pak z většiny smazal?

To mi připomíná, že musím konečně dočíst Carmillu.
ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.