abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 13:33 | Zajímavý článek

Craig Loewen se v příspěvku na blogu Microsoftu věnuje novinkách ve WSL (Windows Subsystem pro Linux), které přinese Windows 10 1903. Jedná se především o možnost přístupu z Windows (Průzkumník souborů, explorer.exe) k souborům v nainstalovaných linuxových distribucích. Použit je protokol 9P.

Ladislav Hagara | Komentářů: 0
dnes 10:44 | Zajímavý software

Byl vydán Hangover ve verzi 0.4.0. Jedná se o součást projektu Wine umožňující spouštět Windows aplikace pro x86 a x86_64 na architektuře ARM64 (AArch64). Zdrojové kódy této alfa verze jsou k dispozici na GitHubu.

Ladislav Hagara | Komentářů: 0
včera 03:00 | Nová verze

Byla vydána nová major verze 3.0.0-1 linuxového prostředí pro operační systémy Windows Cygwin (Wikipedie). Přehled novinek v oficiálním oznámení.

Ladislav Hagara | Komentářů: 6
včera 02:00 | Nová verze

Byl vydán Debian 9.8, tj. osmá opravná verze Debianu 9 s kódovým názvem Stretch. Řešeny jsou především bezpečnostní problémy, ale také několik vážných chyb. Předchozí instalační média Debianu 9 Stretch lze samozřejmě nadále k instalaci používat. Po instalaci stačí systém aktualizovat.

Ladislav Hagara | Komentářů: 0
15.2. 12:33 | Pozvánky

Příští týden bude na MFF UK zahájena série přednášek o architektuře a implementaci operačních systémů. Mezi přednášejícími budou odborníci z firem Kernkonzept, Oracle, Red Hat, SUSE či SYSGO. Pokud si chcete rozšířit obzory (virtualizace, ptrace, ZFS, kdump, ...), vyberte si z harmonogramu téma, které vás zajímá a přijďte. Přednášky se konají každý čtvrtek od 15:40 v učebně S4 na Malostranském náměstí 25 v Praze. Přednášky jsou přístupné veřejnosti (registrace není nutná), studenti UK a ČVUT si je mohou zapsat jako standardní předmět.

Vojtěch Horký | Komentářů: 11
15.2. 05:00 | Nová verze

Bylo vydáno Ubuntu 18.04.2 LTS, tj. druhé opravné vydání Ubuntu 18.04 LTS s kódovým názvem Bionic Beaver. Přehled novinek v poznámkách k vydání a v přehledu změn.

Ladislav Hagara | Komentářů: 0
15.2. 03:00 | Zajímavý software

Git History umí u souborů v git repozitářích zajímavým způsobem zobrazit jejich historii a následně jednotlivé změny, viz animovaný gif. Použít jej lze lokálně nebo aktuálně na soubory umístěné na GitHubu. Máte-li ve webovém prohlížeči zobrazen soubor umístěný na GitHubu, nahraďte v URL doménu github.com doménou github.githistory.xyz a nové URL odešlete. Využít lze také rozšíření Chrome i Firefoxu. V plánu je vedle GitHubu také podpora GitLabu a Bitbucketu.

Ladislav Hagara | Komentářů: 3
15.2. 01:00 | Nová verze

Byla vydána verze 1.0 webové a na frameworku Electron postavené desktopové verze svobodného decentralizovaného skupinového komunikátoru Riot (Wikipedie) využívajícího protokolu Matrix (Wikipedie). Přehled novinek i s náhledy v příspěvku na blogu. Zdrojové kódy jsou k dispozici na GitHubu.

Ladislav Hagara | Komentářů: 4
14.2. 14:22 | Nová verze

Společnost Collabora oznámila vydání verze 4.0 online kancelářského balíku Collabora Online a také Collabora Online Development Edition (CODE) pro domácí uživatele. Kancelářský balík vychází z LibreOffice Online (cgit).

Ladislav Hagara | Komentářů: 0
14.2. 12:11 | Nová verze

Byla vydána verze 241 správce systému a služeb systemd (GitHub, NEWS). Řešeny jsou také bezpečnostní chyby.

Ladislav Hagara | Komentářů: 0
Máte v desktopovém prostředí zapnutou zvukovou znělku po přihlášení se do systému?
 (7%)
 (1%)
 (90%)
 (1%)
Celkem 337 hlasů
 Komentářů: 11, poslední 14.2. 07:59
Rozcestník

Filtrujme čtivé texty z Projektu Gutenberg 2

30. 3. 2016 | Karel Kulhavý | Návody | 2550×

V minulém díle jsme se dostali až k první půlce komplexních přepínačů příkazu rsync, který slouží ke stažení textových souborů projektu Gutenberg na náš disk. Postoupíme k dalším přepínačům…

--delete maže soubory, které byly mezitím smazány na zdroji, což v našem případě snad ani není důležité, a --min-size=1 se vyhne prázdným souborům. --max-size 10 megabajtů je tam kvůli perlám jako kompletní výpis genetického kódu člověka. Samozřejmě v ASCII, aby byl ještě 4x větší než ve skutečnosti. A ve více verzích. Tím si nějaký ten gigabajt ušetříme. No a na závěr je URL, které snad nemusím vysvětlovat. Nicméně mohu vysvětlit, proč rsync a ne třeba wget – wget si Projekt Gutenberg výslovně nepřeje, protože by přetěžoval jeho systém, a místo toho doporučuje rsync.

Na stránku A4 se vejde asi 2000 znaků, 10 megabajtů pak odpovídá pěti tisícům stránek. Do toho by se měl vejít i voluminózní román – nebo Bible. Co by se tam ale nemuselo vejít, je buddhistický ekvivalent Bible, Pálijský kánon:


Pálijský kánon.
Zdroj: DhJ~commonswiki z Wikimedia Commons pod licencí CC-BY-SA.

Pokud se rsync přeruší, typicky z důvodu pádu některého z defektních embedded zařízení, na kterých je dnešní spotřební Internet dle mého názoru vystavěn, je možné ho prostě znova pustit. On si ty přenesené soubory už sám přeskočí. Toto je ostatně samotná hlavní myšlenka rsyncu: na rozdíl od scp nepřenáší již jednou přenesené.

Toto přeskakování stažených souborů může trvat delší dobu a být spojeno s výpisem většího množství informativních hlášek. Při jiném použití rsyncu ale může naopak probíhat velmi rychle a bez hlášek. Odvíjí se to od odlišné situace dané nastavením přepínačů, které zřejmě umožní rsyncu někdy provést urychlující optimalizace a někdy ne. Srovnatelně komplexní rsync příkaz používám například na projektu optického pojítka Ronja, kde velikost synchronizovaného adresáře je 6,7 GB a při malé změně proběhne synchronizace rsyncem velmi rychle.

Původní příkaz rsync, ke kterému Projekt Gutenberg nabádá nedoporučím, protože stahuje všechno možné, audio nahrávky, multimediální data, strojově generované sekundární soubory. Na uvedené stránce píšou, že těch souborů jsou pak 2 milióny. Mirrorování pak trvá neúměrně dlouho:

rsync -av --del ftp@ftp.ibiblio.org::gutenberg /var/www/gutenberg

Zde si jako cvičení z Unixu, která jsme na Matfyzu mívali, uvedeme pár příkladů, jak se na stažený archív podívat.

du -sm pg

Vypíše spotřebu místa na disku v megabajtech. Není to jen součet velikostí souborů, ale započítávají se i části bloků souborového systému, které zůstaly souborem nevyužité.

find pg -type f -ls | tee filelist.txt

Vypíše všechny soubory, ale ne adresáře, ve formátu, který obsahuje kromě jména souboru i délku souboru a další informace, a současně tento výpis ukládá do souboru filelist.txt. Příkaz find bez explicitního zadání akce (-ls) vypisuje pouze cesty k souborům, ale ne jejich délku. K tomu je tam pevně zabudován -ls který má pevný formát výpisu. Vzhledem k tomu, že výpis souborů trvá dlouho (asi 55 tisíc souborů), tento výpis se pak hodí když se chceme podívat, co je v nejdelších souborech. Obsah souboru filelist.txt si ukážeme v příštím díle a budeme pokračovat dalšími příkazy pro inspekci obsahu projektu Gutenberg.

       

Hodnocení: 36 %

        špatnédobré        

Nástroje: Tisk bez diskuse

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

31.3.2016 11:45 Field
Rozbalit Rozbalit vše Proboha
Na kolik dílů se tohle dá natáhnout? To bude nejspíš nějaká variace na Ordinaci v růžové zahradě, ne?
kyknos avatar 5.4.2016 10:20 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 2
kompletní výpis genetického kódu člověka. Samozřejmě v ASCII, aby byl ještě 4x větší než ve skutečnosti.
kdyby sis to přečetl, tak bys zjistil, že by ti dva bity opravdu nestačily
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
5.4.2016 16:17 Ovocníček
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 2
Taková kacířská otázka, ale nebylo by přece jen lepší knížku postaru vytipovat předem a stáhnout ručně? Takhle koukám, že jim linuxák hračička sežere bw za celej archiv, aby to pak z většiny smazal?

To mi připomíná, že musím konečně dočíst Carmillu.
ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.