Paralelizace běžných činností v konzoli pomocí GNU Parallel (diskuse)

Přihlášení | Registrace

napište » Zprávičky

Bad UX World Cup 2025

dnes 18:55 | Humor

Jak na webu co nejšíleněji zadávat datum? Jak to uživatelům co nejvíce znepříjemnit? V Bad UX World Cup 2025 (YouTube) se vybíraly ty nejšílenější UX návrhy. Vítězným návrhem se stal Perfect Date.

Ladislav Hagara | Komentářů: 0

Collabora Office pro desktop

dnes 12:44 | Zajímavý software

Společnost Collabora vydala (YouTube) na LibreOffice založený desktopový kancelářský balík Collabora Office. Pro Windows, macOS a Linux. Se stejným uživatelským rozhraním jako Collabora Online. Svůj desktopový kancelářský balík s rozhraním LibreOffice pojmenovala Collabora Office Classic.

Ladislav Hagara | Komentářů: 1

AV Linux (AVL) a MX Moksha (MXM) 25

dnes 12:00 | Nová verze

Glen MacArthur vydal AV Linux (AVL) a MX Moksha (MXM) 25. S linuxovým jádrem Liquorix. AV Linux (Wikipedie) je linuxová distribuce optimalizována pro tvůrce audio a video obsahu. Nejnovější AV Linux vychází z MX Linuxu 25 a Debianu 13 Trixie. AV Linux přichází s desktopovým prostředím Enlightenment 0.27.1 a MX Moksha s prostředím Moksha 0.4.1 (fork Enlightenmentu).

Ladislav Hagara | Komentářů: 0

1. snapshot Ubuntu 26.04 LTS (Resolute Raccoon)

včera 17:55 | Nová verze

Ubuntu pro testování nových verzí vydává měsíční snapshoty. Dnes vyšel 1. snapshot Ubuntu 26.04 LTS (Resolute Raccoon).

Ladislav Hagara | Komentářů: 0

Riziko prolamování šifrované komunikace: Státy EU se shodly na návrhu proti dětské pornografii

včera 14:33 | IT novinky

Zástupci členských států EU se včera shodli na návrhu, který má bojovat proti šíření materiálů na internetu zobrazujících sexuální zneužívání dětí. Nařízení známé pod zkratkou CSAM a přezdívané chat control mělo množství kritiků a dlouho nebyla pro jeho schválení dostatečná podpora. Pro schválení byla potřeba kvalifikovaná většina a dánské předsednictví v Radě EU se snažilo dosáhnout kompromisu. Návrh nakonec po dlouhých týdnech

… více »

Ladislav Hagara | Komentářů: 9

Herní engine s&box je open source

včera 12:22 | Zajímavý software

Britské herní studio Facepunch stojící za počítačovými hrami Garry's Mod a Rust uvolnilo svůj herní engine s&box (Wikipedie) jako open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT. Herní engine s&box je postavený nad proprietárním herním enginem Source 2 od společnosti Valve.

Ladislav Hagara | Komentářů: 1

Vývoj Zigu přesunut z GitHubu na Codeberg

včera 04:55 | Komunita

Vývoj programovacího jazyka Zig byl přesunut z GitHubu na Codeberg. Sponzoring na Every.

Ladislav Hagara | Komentářů: 4

KDE Plasma 6.8 už pouze nad Waylandem

včera 04:44 | Komunita

Stejně jako GNOME i KDE Plasma končí s X11. KDE Plasma 6.8 poběží už pouze nad Waylandem. Aplikace pro X11 budou využívat XWayland.

Ladislav Hagara | Komentářů: 3

Europoslanci vyzvali k zákazu sociálních sítí pro osoby mladší 16 let

26.11. 14:55 | IT novinky

Poslanci Evropského parlamentu dnes vyzvali k výraznému zvýšení ochrany nezletilých na internetu, včetně zákazu vstupu na sociální sítě pro osoby mladší 16 let. Legislativně nezávazná zpráva, kterou dnes odsouhlasil Evropský parlament poměrem 493 hlasů pro ku 92 proti, kromě zavedení věkové hranice 16 let pro využívání sociálních sítí, platforem pro sdílení videí či společníků s umělou inteligencí (AI) vyzývá také k zákazu … více »

Ladislav Hagara | Komentářů: 48

Doom v KiCadu nebo na osciloskopu? Žádný problém

26.11. 14:11 | Humor

Doom v KiCadu nebo na osciloskopu? Žádný problém: KiDoom: Running DOOM on PCB Traces a ScopeDoom: DOOM on an Oscilloscope via Sound Card.

Ladislav Hagara | Komentářů: 3

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (34%)

Gitlab (47%)

Atlassian (20%)

Bitbucket (18%)

Gitea (23%)

Mercurial (16%)

jen git (24%)

jen svn (16%)

Jiné (uvedu v diskusi) (18%)

Celkem 415 hlasů

Komentářů: 17, poslední 19.11. 21:57

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Články / Paralelizace běžných činností v konzoli pomocí GNU Parallel / Paralelizace běžných činností v konzoli pomocí GNU Parallel (diskuse)

Štítky: AbcLinuxu, audio, multimédia

Nástroje: Začni sledovat (6) ?

Diskuse byla administrátory uzamčena.

14.7.2014 14:00 pepa
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Diky, zas jsem se neco priucil... :)

15.7.2014 12:00 panika
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

super clanek, taky dekuju

16.7.2014 09:19 omg
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

hlavne se nauc priklady u --res prepinace.

16.7.2014 09:49 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

To je dobrá připomínka - jde o užitečný přepínač, který jsem v článku nezmínil. Ukládá standardní a chybový výstup každého spouštěného příkazu. Osobně preferuju přístup, že si to uložím sám (dává mi to větší flexibilitu při volbě názvu výstupních souborů), ale určitě se to někdy může hodit.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

14.7.2014 22:44 jama
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Skoda ze ten grep nenalezne vyskyty vyrazu pokud jsou zrovna na nejake hranici bloku.

Rychly ale nepresny :).

14.7.2014 22:53 chrono
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Ak sa grep používa na jednotlivé riadky (a normálny grep nič iné ani nevie), tak žiadny problém nie je (pretože, ako to už bolo napísané v článku, parallel dá do bloku vždy celý riadok).

15.7.2014 00:20 ebik | skóre: 2
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

coz ma zase jine nevyhody - musi ten konec radku naijit, coz je operace, ktera trva zhruba tolik, jak jsou radky dlouhe (pokud je to napsano chytre)

14.7.2014 23:00 Nuphar | skóre: 19
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Dost dobrý. Sice to asi budu trávit docela dlouho a budu si to muset ještě minimálně jednou přečíst, ale je to hodně dobré. :-)

Díky.

Per aspera, Asparagus et Aspergillus ad a/Astra!

15.7.2014 09:04 pet
Rozbalit Rozbalit vše PŘEKLEP

parallel --sshlogin node01.lan --trc /tmp/{/.}.wav oggdec {} -o /tmp/{/.}.wav ::: *.ogg
Dodám, že {./} je nahrazeno za název ...

Takže {./} nebo {/.}?

15.7.2014 09:44 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: PŘEKLEP

Je to {/.} - díky za upozornění, opravil jsem to v článku.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

16.7.2014 09:32 Olga
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

use Parallel::ForkManager;

16.7.2014 12:45 ebik | skóre: 2
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Super. Přesně tohle jsem si chtěl napsat, akorát jsem byl vždycky línej to v tu chvíli řešit.

19.7.2014 12:28 v.podzimek | skóre: 17
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Pěkné, s xargs už jsem se kolikrát dost natrápil, abych dosáhl svého. Bude se nám to hodit pro spoustění pylintu na zdrojácích Anacondy.

25.7.2014 09:36 Trubicoid2
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Jde nejak udelat ta funkce bez bashe, treba v dash? Tedy mam skript o vice radcich, co chci spustit na kazdy soubor

25.7.2014 09:38 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

To nevím. Osobně bych vytvořil skript (ideálně takový, který je schopný zpracovat více vstupních argumentů najednou, aby se nemusel spouštět tolikrát).

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

29.7.2014 11:27 ebik | skóre: 2
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Vyexportovat funkce pro bash lze. Využívá to toho, že bash exportuje funkce jako obyčejné proměnné. Jen to nemá tak pěknou syntaxi:

#!/bin/dash

Pozdrav="() {
  echo ahoj;
}"
export Pozdrav
bash -c Pozdrav

Je otázka ale jaký shell použije ten příkaz parallel. (Dá se pak asi z parallel spustit "bash -c Funkce" ale to už začíná být dost přes ruku.

29.7.2014 10:04 nl + grep
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Dobrý článek, díky.

Trochu mě "tahá za oči" ten příklad s nl | grep. Já vím že vymyslet krátké příklady které dělají aspoň trochu něco smysluplného je problém, ale tohle podle mého názoru není použitelné:

Neměřil jsem to na reálných datech, ale podle mého názoru pokud už ten nl musí fakt ten soubor sekvenčně načíst, hledat \n a přidávat tam čísla řádků (= má data v cache procesoru), je už výrazně rychlejší na ta data rovnou pustit stavový automat pro ten hledaný regulární výraz. Řekl bych, že posíláním do roury a odtam do jiných procesů (a tedy přehazováním dat do cache jiných procesorů) se ztratí daleko víc času.

Tohle je přesně ten případ, kdy devět žen neodnosí jedno dítě za měsíc a 60 kopáčů nevykope metr hlubokou jámu za minutu.

-Yenya, http://www.fi.muni.cz/~kas/blog/

30.7.2014 00:04 Marek
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Taky mě to napadlo, ale je to popsané v článku: hodí se to až když je ten regulární výraz kurva-složitej (nebo rychlej disk nebo pomalej (i ne-vícevláknovej) procesor (nebo kombinace předešlých)).

První program dokončí svoji práci celkem rychle a pošle výstup druhému programu (grep), pak okamžitě může dál pokračovat v práci a předat druhý výstup další instanci grepu. Kdežto konvenční způsob by byl synchronní grep v jednom vláknu.

Marek

30.7.2014 13:31 nl + grep
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Složitý regulární výraz je tak jediná možnost, ovšem dost málo pravděpodobná. Délka vstupu bude omezená (vzhledem k tomu, že se bavíme o číslování řádků a tedy o RE, který ma matchovat jen v rámci řádku). Samozřejmě lze vymyslet patologický případ využívající například vnořené backreference nebo něco podobného, co by neumožnilo převést ten regulární výraz do konečného automatu. No ale článek samotný mluví dokonce jen o hledání substringu, což dost jistě odpovídá tomu co píšu - paralelizace je zde kontraproduktivní.

Rychlý disk neudělá žádný rozdíl (resp. s pomalým není už vůbec žádný důvod paralelizovat).

Pomalý procesor taky neudělá žádný rozdíl. V obou těchto případech nejde o rychlost ale o to, že je daleko dražší (ale fakt hodně!) zbavovat se dat, které už mám v cachi procesoru a posílat je jinému procesoru k tomu, aby s nimi něco udělal. To bychom leda museli uvažovat o procesoru bez cache :-)

nebo o řádcích vstupu, které se nevejdou ani do sekundární cache procesoru (dnes řádově megabajty).

Právěže není vůbec pravda, že by první program (nl) dokončil svou práci výrazně rychleji než třeba grep tak, aby vůbec mělo cenu uvažovat o tom tu práci rozdělit mezi víc procesů. Fakt si to zkuste.

Ostatně tohoto triku "když už mám data v cache CPU, udělám s nimi co nejvíc výpočtů naráz" se využívá fakt hodně dlouho. Vizte třeba funkci copy_and_csum() v kernelu Linuxu tak 15 let zpátky - bylo daleko rychlejší zkopírovat síťový packet na místo určení a u toho zároveň počítat/kontrolovat kontrolní součet, než tyto věci dělat odděleně.

-Yenya, http://www.fi.muni.cz/~kas/blog/

30.7.2014 14:33 nl + grep
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Schválně si zkuste:

cd /var/tmp
wget http://ftp.linux.cz/pub/FILES.byname    # textovy soubor cca 1.1 GB
for i in `seq 1 20` ; do time sh -c 'grep -n jezek FILES.byname >/dev/null'; done
for i in `seq 1 20` ; do time sh -c 'nl FILES.byname | grep jezek >/dev/null'; done

U mě první varianta běží cca 1.9 s reálného času (okolo 1.1 user, 0.8 system), druhá varianta 6.6 s reálného času (7.0 user, 1.5 system). Beru vždy nejrychlejší čas z těch 20 pokusů.

Nicméně zdá se, že samotný výpočet nad daty z cache taky není úplně zadarmo - když spustím ten první případ bez -n (bez počítání čísel řádků), tak je to ještě o dalších 0.2 s rychlejší.

-Yenya

30.7.2014 13:54 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Souhlasím, že tenhle příklad se mi moc nepovedl, ale aspoň jsem se snažil vysvětlit, proč se to nehodí vždy (i když jsi mě mnohem rozsáhleji a přesněji doplnil a za to děkuju). Napadá tě lepší příklad?

Podle mě by bylo dobrý, kdyby parallel podporoval paralelní čtení z jednoho souboru - že by každý proces četl od jiného offsetu nějakou danou velikost, ale to by šlo samozřejmě jen tehdy, kdyby se nemusely hlídat konce řádků a práce by se rozdělovala dle fixní velikosti.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

30.7.2014 14:42 Yenya
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Nojo, když to není o podpoře v parallel, ale v těch spouštěných programech, které typicky čtou soubor dokud to jde (do konce souboru).

Napadlo mě, že to by asi parallel musel LD_PRELOADovat něco, co by při pokusu o čtení určitého souboru nad nějakou mez vracelo konec souboru. Jakože by každému potomkovi otevřel ten stejný soubor, zavolal lseek() na patřičný offset, a pak by ten deskriptor předal třeba jako std. vstup, a přes LD_PRELOAD by zamezil čtení za tu část souboru, která patří tomu konkrétnímu potomkovi.

No ale problém čísel řádků to neřeší.

Lepší příklad mě nenapadá.

-Yenya

30.7.2014 14:53 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Já jsem to myslel trochu jinak. Ty soubory ke zpracování bys zadal jako argumenty přímo tomu parallel a volaným programům by se pak chunky předávaly třeba na vstup nebo přes pojmenovanou rouru, atd.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

31.7.2014 08:57 ebik | skóre: 2
Rozbalit Rozbalit vše Re: Paralelizace běžných činností v konzoli pomocí GNU Parallel

Jo, jenže předání chunku přes rouru znamená v jednom programu (parallel) ten chunk načíst, pak* zapsat do roury, která zkopíruje data do adresního prostoru druhého programu (včetně kopírování přes nějaké kernel buffery mezi). To potom ten parallel klidně může číst vstup sekvenčně a schovávat si data někde v paměti.

*) trochu jsem to zjednodušil. Na linuxu myslím lze pomocí speciálních volání poslat data ze souboru do roury přímo, bez načítání do programu. Pořád tam je ale roura navíc, takže ze souborových cachí jdou data do bufferu roury a pak teprve do programu.

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje