Filtrujme čtivé texty z Projektu Gutenberg 6

V minulém díle jsem naznačil, že ze strany nesouvisející internacionalizace operačního systému přijde neočekávaný problém. Tuto interakci si předvedeme.

Internacionalizace umožnila mimo jiné to, že spousta lidí na Zemi si může nechat vypisovat chybové hlášky operačního systému ve svém rodném jazyce:

V čem je ale problém? Úmysl byl, aby se dalo měnit nastavení jazyka, to se měnit dá. Jenže kromě zamýšleného efektu nastal i efekt nezamýšlený, anglicky tzv. unintended consequences. Tato wikipedijní stránka mi přijde jako zábavné čtivo sama o sobě.

Počítač musel totiž začít zpracovávat texty v kódování UTF-8, kde znaky mají třeba 3 bajty délky a ještě hůře, jejich délka je proměnlivá. Kde bylo dříve možné použít velmi rychlé vyhledávací tabulky pro 1 bajt (256 položek), která se vejde i do velmi rychlé L1 cache s náhodným přístupem v řádu jednotek nanosekund, teď by byla třeba příliš rozměrná tabulka pro 4 bajty (4 miliardy položek), která by se často nevešla ani do RAM. Musela by se umístit na pevný disk, kde náhodný přístup trvá řádově milisekundy, je tedy řádově miliónkrát pomalejší! Proto se musí začít používat komplexnější algoritmy, které jsou pomalejší. Zkusíme si tedy, o kolik rychleji to poběží, když před různé příkazy v této pipeline zařadíme LC_ALL=C, které toto komplexní chápání znaků vypíná:

Ano, řekněme to nahlas: zavedení internacionalizace mělo za následek, že si v bashi, Firefoxu atd. chybové hlášky a menu můžeme nastavit česky, a současně před spoustu příkazů v bashových skriptech musíme psát LC_ALL=C, jinak nám poběží výrazně pomaleji.

V příštím díle využijeme tuto znalost k urychlenému třídění souborů podle délky, výrobě statistiky délek a inspekci, co nejdelší soubory obsahují.

Diskuse k tomuto článku

Tenhle seriál musí být nějaký advanced trolling, jinak to nevidím... nechce se mi věřit, že by člověk který mimo jiné "vynalezl" Ronju, byl až takové pako :-)

Svoboda je tím nejdůležitějším, co máme. Nenechte se o ní připravit, podporujte Pirátskou stranu!

27.4.2016 16:33 hejkal
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Pouze predstira slabomyslnost, aby mohl ukazat sokujici paralelu mezi narustajici komplexnosti dnesniho sveta a programovanim trivialit v bashi. A to se mu dari, uprimne priznam, ze pred serialem jsem si to vubec neuvedomoval a uz nekdy po patem dilu na mne zaccala padat takova jakoby uzkost...

30.4.2016 15:17 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

tiez mi to tak pride.

Je to taký ROOT komix v bashi, nijak to neprekvapí, ale človek sa na chvíľu ....

KERNEL ULTRAS video channel >>>

27.4.2016 19:43 Fluttershy, yay! | skóre: 92 | blog:
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Poruchu osobnosti mám schizoidní,
diagnostikovala mně ji psycholožka,
nejsem schopen styku se ženou.

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ no gods, no masters

27.4.2016 20:15 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

…podiví?

P.S.: Nechcete, doufám, říct, že nás ještě čekají "remixy"?

28.4.2016 16:12 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

P.S.: Nechcete, doufám, říct, že nás ještě čekají "remixy"?

Hele, to je super nápad, začnu nad tím přemýšlet! Chcete seriál „nejhorší věc, co jsem napsal v Bashi“? Nabízím:

Driver pro lasercutter
Keystream guesser na GSM (byl tak nepoužitelně pomalý, že jsem ho nikdy neviděl fungovat)
Detekce blesků

Já to s tou denacifikací Slovenska myslel vážně.

29.4.2016 10:12 Remix
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

ASCII table

najzabavnejsie k tomuto serialu je sledovanie diskusie :) ...ale vazne - co sa stazujete? stazovat sa na kvalitu serialu, jeho zaujimave rozdelenie na jednotlive kapitoly, alebo cokolvek by mal mat pravo len ten kto bude schopny v komentari napisat bashovy skript, ktory bude funkcne zhodny s finalnou verziou ku ktorej sa autor snazi dopracovat. Podla chlapackych reci ktore tu citam by ste to mali zvaldnut vsetci ... tak sa ukazte :)

27.4.2016 23:35 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Tak stačí se podívat v gitu na ten software, co někteří z nich produkují :D

So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...

28.4.2016 11:14 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Většina lidí si imho stěžuje na dost absurdní rozkouskování, kde díly mají třeba dva, nebo tři odstavce. Tímhle tempem je reálné, že se někteří konce seriálu ani nedožijí.

blog.rfox.eu

28.4.2016 11:40 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Útěcha je, že s délkou dílu se nelze libovolně přiblížit nule, protože pod jeden znak to prostě nepůjde. Na druhou stranu ale lze prodlužovat intervaly mezi díly, takže ani při pevné celkové délce nemáme horní odhad celkové doby. :-)

28.4.2016 11:36 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Příklady jednodušších a efektivnějších řešení už tu v komentářích byly. Napsat ekvivalent finální verze půjde jen těžko, když nevíme, co by měla vlastně dělat (a jestli vůbec má jít o jeden skript - spíš ne). Jediné, co je celkem jisté, že určitě ne to, co je napsáno v názvu seriálu…

28.4.2016 15:18 Anastázina
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

No, stokrát radši si čtu Clocka, než neustálou Kubečkovu mentální masturbaci a honění si ega. Clock už totiž něco skutečně dokázal...

28.4.2016 15:45 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

…a přesně to je podstata problému. Kdyby něco takového publikoval v blogu nějaký začátečník, který právě objevil kouzlo unixových textových utilitek a chce se podělit o svou radost, zasloužil by si povzbuzení a ne výsměch. Když to někdo, kdo už by měl mít rozum a zkušenosti, vydává jako sérii článků, je to přinejmenším zarážející.

28.4.2016 17:48 krocan
Rozbalit Rozbalit vše Re: Filtrujme čtivé texty z Projektu Gutenberg 6

Asi tak - Clock se nam treba snazi namluvit, ze o existenci locale se dozvedel pred tydnem, coz je zjevny nesmysl. Proste je trochu vystredni a dela si prdel, nakonec proc ne, ale ze to redakce vydava po pulstrankach jako dily serialu, kdyz nektere nepokryji ani jeden cely bash prikaz, to je otazka.

Filtrujme čtivé texty z Projektu Gutenberg 6

Další články z této rubriky

Diskuse k tomuto článku