abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 19:33 | Nová verze

Bylo vydáno OpenBSD 6.5. Opět bez oficiální písně. Nejnovější OpenBSD přináší například OpenSMTPD 6.5.0, LibreSSL 2.9.1 nebo OpenSSH 8.0.

Ladislav Hagara | Komentářů: 1
včera 11:33 | Zajímavý článek

Na oficiálním blogu Raspberry Pi byla představena kniha An Introduction to C & GUI Programming. Kniha je ke stažení zdarma (pdf). Papírovou verzi lze koupit za 10 liber.

Ladislav Hagara | Komentářů: 11
včera 10:33 | Nová verze

Byla vydána nová verze 4.0.0 otevřeného emulátoru procesorů a virtualizačního nástroje QEMU (Wikipedie). Přispělo 220 vývojářů. Provedeno bylo více než 3 100 commitů. Přehled úprav a nových vlastností v seznamu změn.

Ladislav Hagara | Komentářů: 0
včera 10:00 | Nová verze

Google Chrome 74 byl prohlášen za stabilní (YouTube). Nejnovější stabilní verze 74.0.3729.108 tohoto webového prohlížeče přináší řadu oprav a vylepšení. Vylepšeny byly také nástroje pro vývojáře (YouTube). Opraveno bylo 39 bezpečnostních chyb.

Ladislav Hagara | Komentářů: 0
23.4. 21:44 | Nová verze

Po roce vývoje od vydání verze 1.14.0 byla vydána nová stabilní verze 1.16.0 dle Netcraftu aktuálně nejpoužívanějšího webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.16.

Ladislav Hagara | Komentářů: 0
23.4. 13:44 | Zajímavý software

Termshark je Wireshark běžící v terminálu. Jedná se o nadstavbu nad tshark naprogramovanou v programovacím jazyce Go. Zdrojové kódy jsou k dispozici na GitHubu.

Ladislav Hagara | Komentářů: 1
23.4. 13:22 | Nová verze

Měsíc po vydání verze 1.16.0 byla vydána nová verze 1.18.0 sady nástrojů pro správu síťových připojení NetworkManager. Přehled novinek v souboru NEWS na GitLabu.

Ladislav Hagara | Komentářů: 2
23.4. 11:22 | Komunita

Linuxová distribuce Scientific Linux vycházející z Red Hat Enterprise Linuxu končí, verze 8 nebude vydána. Laboratoř Fermi (Fermi National Accelerator Laboratory), hlavní vývojáři Scientific Linuxu, přejde na CentOS 8. Scientific Linux ve verzích 6 a 7 bude nadále podporován.

Ladislav Hagara | Komentářů: 10
23.4. 11:11 | Pozvánky

Dubnový sraz spolku OpenAlt se koná ve čtvrtek 25. 4. 2019 v Pivovarském klubu od 18:00. Najdete jej kousek od metra Florenc na adrese Křižíkova 17°, Praha 8. Sejdeme se zase u dobrého piva a popovídáme si o tématech jako umění a technologie, IoT, CNC, svobodný software, hardware a další hračky.

xkucf03 | Komentářů: 0
21.4. 22:33 | Komunita

Byly vyhlášeny výsledky letošní volby vedoucího projektu Debian (DPL). Dnešním dnem je novým vedoucím Sam Hartman.

Ladislav Hagara | Komentářů: 11
Používáte headset pro virtuální realitu?
 (1%)
 (3%)
 (2%)
 (19%)
 (0%)
 (74%)
Celkem 230 hlasů
 Komentářů: 12, poslední 18.4. 01:19
Rozcestník

Filtrujme čtivé texty z Projektu Gutenberg 5

20. 4. 2016 | Karel Kulhavý | Návody | 2026×

V minulém díle jsme viděli, jak i u jednoduchého unixového příkazu může vzniknout nečekaný problém při použití, zcela mimo doménu jeho působnosti. Existuje elegantní prevence takových omylů?

Další možnost prevence je před zpracováním dat vytvořit vědeckou hypotézu o nich (žádný řádek nezačíná mezerou), a tu se pak pomocí experimentu snažit potvrdit nebo vyvrátit. Poslední dvě uvedené metody jsou ale komplexní a komplexitu práce s IT ještě zvyšují.

Tento modelový incident je dle mého názoru pěknou ukázkou jevu, jak komplexní řešení (IT) problému (tužka a papír jsou příliš pomalé, neohrabané při posílání na dálku atd.) zanáší náš život komplexitou. Americký vědec, antropolog Dr. Joseph Tainter, profesor na Department of Environment and Society na Utah State University (vystudoval University of California Berkeley, známou např. OS BSD) tento jev zkoumá. Ve svých videopřednáškách (mirror) na YouTube vysvětluje, jak tato akumulace komplexity nakonec běžně způsobuje pády civilizací, které původně z této komplexity, sloužící k řešení problémů, profitovaly. A že z tohoto hlediska je naše civilizace v úplně typické fázi před kolapsem.

Po odbočce k civilizačnímu nadhledu tento problém vyřešíme přídavným příkazem sed, který mezery na začátku řádku odfiltruje. Stříška značí začátek řádky. Při práci se sed, grep, awk apod. je třeba dávat pozor, že u každého příkazu je jinak, před které tyhle speciální znaky se dávají obrácená lomítka a před které ne, a také že shell ta obrácená lomítka někdy sní a někdy ne. Pokud je sní, musí se dát dvojitě. V našem případě jsme obrácená lomítka naštěstí nepotřebovali vůbec.

sed -e 's/^ //g' clean.txt > clean2.txt

A teď už může přijít zlatý hřeb: jak bývá dle mé zkušenosti typické pro Unix a Linux, s vynaložením neúměrného množství úsilí se nám konečně podařilo udělat jednoduchou věc, na kterou specificky existuje příkaz – odfiltrovat sedmý sloupec ze souboru:

cut -f 7 -d ' ' clean2.txt

4608764
4315118
597079
274
220594
512351
629627
346597
183018
80
328835
60059
427785
871780
3916362
[...]

Na zlatý hřeb už jen pověsíme pár dalších příkazů a objeví se nám statistika. -n říká, že čísla se mají řadit číselně a ne abecedně, 10 je tedy po 2 a ne před ní. uniq je z anglického unique, tedy „jedinečný“ – bere seřazený vstup, kde opakující se vstupy jsou v kuse za sebou, a z těch pustí vždy jen jeden. Přepínač -c ale způsobí, že se k tomu ještě navíc spočítá, kolik jich bylo. Dalšímu sortu řekneme, aby obrátil pořadí pomocí -r. Přepínač -k1 znamená klíč v prvním sloupci, tedy řadíme podle počtu opakování. A head -n 20 je tu proto, aby se nám hezky useklo jen prvních 20 řádek článku.

$ cut -f 7 -d ' ' clean2.txt  |sort -n |uniq -c | sort -nrk1 | head -n 20
     23 11009
     15 12911
     13 21607
     12 12888
     12 12867
      9 1405
      9 12927
      9 12900
      9 12897
      9 12887
      8 21586
      8 12891
      8 12858
      7 12912
      7 12879
      7 12864
      6 59
      6 12906
      6 12905
      6 12890

Teď by se mohlo zdát, že příkaz konečně proběhl, jak jsme chtěli, a nežádané komplexity IT jsme byli ušetřeni. Ale kde! Zdání klame! I zde si vychutnáme další neočekávaný úder z hlubin Tainterovy studijní oblasti. Ale jak budeme vůbec vědět odkud, když vše funguje, jak má? Úder přichází ze strany internacionalizace. Před určitým počtem let byl sen, že počítače budou moci mluvit světovými jazyky, a tak si dnes můžete nastavit, že vám bash bude psát chybové hlášky třeba vietnamsky nebo čínsky:

( for a in $(locale -a|grep -i utf); do LC_ALL="$a" . owhxeddo; done ) 2>&1 | sort | uniq

Pilní čtenáři si mohou příkaz spustit za domácí úkol, ti ostatní se dozví, jak vypadají chybové hlášky ve všemožných jazycích, v příštím díle.

       

Hodnocení: 50 %

        špatnédobré        

Nástroje: Tisk bez diskuse

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

20.4.2016 12:34 Jouda
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
Možná tomu správně nerozumím. Opravdu bylo věnováno tolik úsilí, aby byla nalezena složitá náhrada za toto? awk '{ print $7}' ./inputifile.txt | sort -nr | uniq -c

Bojím se, o čem budou další díly, když triviálnímu triviálnímu součtu nad jedním sloupcem spolklo tolik řádek "úvah".
20.4.2016 22:07 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5

Kéž by… To úsilí bylo věnováno tomu, aby autor tím krkolomným postupem dosáhl toho, co by měl zadarmo, kdyby tři díly zpátky místo "-ls" napsal "-printf '%s\n'".

Na druhou stranu, jak s oblibou říká moje tchýně, vychovávat je nejlépe osobním příkladem a nelze-li jinak, pak alespoň odstrašujícím. Takže, děti, tady názorně vidíte, jak to dopadá, když se místo použití vhodných nástrojů budete snažit parsovat výstup určený pro lidského čtenáře. :-)

21.4.2016 10:42 Jouda
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
Po přečtení tohoto dílu jsem se tak daleko do minulosti jít neodvážil. Nejspíš se ani neodvážím k otevření dalších budoucích dílů. Je to skoro jako scénář pro seriál TV Nova. :)
Jesus Jimenez avatar 21.4.2016 12:11 Jesus Jimenez | skóre: 29
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
Však autor něco podobného zmiňuje sám :)

A teď už může přijít zlatý hřeb: jak bývá dle mé zkušenosti typické pro Unix a Linux, s vynaložením neúměrného množství úsilí se nám konečně podařilo udělat jednoduchou věc, na kterou specificky existuje příkaz – odfiltrovat sedmý sloupec ze souboru

Doaenův zákon průtahů: Čím pomaleji pracuješ, tím méně naděláš chyb. -- Murphy
25.4.2016 14:59 Jouda
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
Ve mě to spíš budí dojem, že neumí používat nástroje k tomu, k čemu jsou. Ono to možná není typické pro UX a LX. Spíš pro autora. :D
kyknos avatar 25.4.2016 17:37 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
jasne, clock je hrozna lama :D
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
21.4.2016 13:52 kolemjdouci
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
Ja myslim, ze se v dalsich dilech objevi Vesmirni lide. To z toho odstavce o komplexite, ktery konci varovanim pred kolapsem, jasne cisi ...
21.4.2016 06:41 x
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
Tenhle seriál žeru! Esence unixového stylu humoru. Clock ve své životní formě. Worse is better!
22.4.2016 11:56 koroptev
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 5
nastavuje zrcadlo, dekonstruuje stereotypy!

Založit nové vláknoNahoru

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.