Unixové nástroje – 11 (split, dd)

V dnešním díle si popíšeme nástroj split pro rozdělování souborů na části a dd pro nízkoúrovňové kopírování souborů.

Obsah

split

split je program sloužící k rozdělení většího souboru na několik menších. Název split znamená anglicky „rozdělit“. Program se poprvé objevil v systému AT&T UNIX v3.

Tento příkaz rozdělí daný soubor po 1000 řádcích do několika menších. Počet řádků lze ovlivnit přepínačem -l, kterému se předá požadovaný počet řádků. Základ názvu výstupních souborů, jelikož jsme žádný nezadali jako druhý argument, se použije výchozí, a tp je „x“. Použije se i výchozí délka přípony, což obnáší dva znaky („aa“, „ab“, atd.) a lze ovlivnit přepínačem -a následovaným celočíselnou hodnotou. Výstupní soubory se tedy budou jmenovat „xaa“, „xab“, „xac“ a tak dále.

Tento příkaz rozdělí daný soubor po 2000 řádcích a výstupní soubory budou mít názvy „casti_velkeho_textoveho_souboru.aaa“, „casti_velkeho_textoveho_souboru.aab“, atd.

Rozdělování na základě daného počtu řádků se může hodit u textových souborů, ale u ostatních typů je vhodnější zadat požadovanou velikost jednotlivých částí souboru. To se dělá pomocí přepínače -b, kterému můžete zadat celočíselnou hodnotu (počet bytů), případně za ni doplnit znak „k“, když chcete zadat počet kilobytů, nebo „m“ pro práci s megabyty.

Tolik tedy ke standardní verzi. GNU verze, jak bývá zvykem, přináší pár rozšíření. Přepínač -b rozeznává více přípon. K, M, G, T, P, E, Z, Y jsou mocniny dvojky (běžně používané v informace), přičemž KB, MB, GB, TB, PB, EB, ZB a YB jsou mocniny deseti podle SI.

Přepínač -C (--line-bytes) se hodí pro použití s textovými soubory. Zadáte mu počet bytů (podporuje i přípony jako -b) a split potom rozdělí vstupní soubor tak, že se do každého výstupního souboru zapíše tolik řádků, kolik je možné, aniž by byla daná velikost překročena. Obsahuje-li soubor řádek delší, než je zadaná velikost, daný řádek bude rozdělen do více souborů.

A nakonec můj oblíbený přepínač -d (--numeric-suffixes), který zajistí, aby se v příponě místo znaků používaly číslice.

dd je program, jehož hlavním účelem je nízkoúrovňové kopírování a konverze surových dat. Původ tohoto nástroje je zvláštní. Název dd je „zkratkou“ convert and copy, přičemž někde se lze dočíst, že to není „cc“ (jak by se dalo očekávat) právě proto, že takto se jmenuje kompilátor. Říká se, že netradiční syntaxe tohoto programu (ve stylu parametr=hodnota) je parodie na IBM JCL.

Lidé si z dd občas utahují a říkají, že je zkratkou „data destroyer“ (ničitel dat) nebo „delete data“ (smazat data), jelikož stačí omylem prohodit parametry a můžete tak snadno přijít o data. Vlastně klidně o celý oddíl. Opatrnost se tedy vyplatí.

Hlavní parametry jsou if a of, přičemž pomocí if se zadává vstupní soubor (input file) a pomocí of tedy výstupní soubor (output file). Další důležité parametry jsou bs (určuje velikost vstupních i výstupních bloků, výchozí je 512 bytů) a conv (přes ten se zadává, jak chceme soubor zkonvertovat). Ukážeme si, jak pomocí dd zkopírovat obraz ISO z CD-ROM:

Tento příkaz čte ze zařízení /dev/cdrom po 2 kB a zapisuje přečtená data do souboru CD.iso v aktuálním adresáři. Argument sync parametru conv zajistí doplnění každého vstupního bloku na velikost vstupního bufferu (zadaného v tomto případě přes parametr bs). Argument notrunc téhož parametru zabraňuje zkrácení případného existujícího výstupního souboru CD.iso (tj. pokud CD.iso již existuje, bude se obsah nahrazovat postupně od začátku přepisováním souboru).

Parametr count umožňuje zadat počet vstupních bloků, které se mají zkopírovat. Implicitně se kopírují všechny.

Dále si představíme parametry skip a seek. Parametr skip přeskočí daný počet vstupních bloků, než začne kopírovat vstupní soubor. Parametr seek přeskočí daný počet výstupních bloků ve výstupním souboru a teprve potom začne zapisovat. Umožňuje tak vytvářet tzv. řídké soubory (sparse files):

Velikost vstupních a výstupních bloků lze nastavit najednou pomocí bs, jak jsme si již řekli, ale v případě potřeby lze nastavit obě hodnoty zvlášť pomocí ibs (vstup) a obs (výstup).

Parametr conv podporuje více možností převodu dat, než jsme si zatím ukázali. Například argument ucase převede malá písmena na velká (a lcase naopak velká na malá), swap prohodí každý pár vstupních bytů. Argument noerror zajistí pokračování i v případě chyb, přičemž v kombinaci se sync se chybné byty nahradí nulovými (jinak jsou vynechány). Argument ascii převede (standardní) EBCDIC na ASCII, přičemž ebcdic udělá opak. Argument ibm slouží k převodu ASCII do IBM EBCDIC.

GNU dd podporuje výpis statistik přenosu za běhu programu. Lze toho docílit posláním signálu SIGUSR1. Když počítáte dopředu s tím, že byste toho chtěli využít, je dobré pustit dd na pozadí a rovnou si uložit PID procesu do proměnné.

Existují zvláštní verze dd, které jsou specializované na zachraňování dat z poškozených disků, atp. Jde například o GNU ddrescue nebo dd_rescue. Port na Windows je k dispozici též.

Diskuse k tomuto článku

Moc hezky popsané dd. Já osobně pro výpis statistiky používám na druhé konzoli/okně puštěný

watch killall -USR1 dd

výhoda je, že se to snadněji pamatuje a je možné to pustit jednou a bude to fungovat pro všechny dd, dokud se to nevypne.

Pro pokročilejší bych doplnil, že bez zadání if a/nebo of se použije standardní vstup/výstup. To sice degraduje dd na úroveň cat, ale třeba při práci s blokovými zařízeními je cat trochu problematický :-)

Například:

ssh root@nekde 'dd if=/dev/sda bs=1M' | dd of=/dev/sda bs=1M

Každopádně před každým použitím dd doporučuju pořádně zkontrolovat argumenty, přesně podle starého japonského přísloví z dynastie Ming "dvakrát měř, jednou dd".

9.3.2010 05:58 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

No vidíš, na watch jsem zapomněl, takže díky za doplnění. Ten popíšu třeba jindy :-)

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

9.3.2010 15:09 Radek Hladik | skóre: 20
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

No ten watch tady slouží jen ke spouštění příkazu dokola, misto while true ; do sleep 2 ; prikaz ; done ;, ale jinak je to opravdu užitečný prográmek. Mé oblíbené je watch cat /proc/mdstat

9.3.2010 18:24 vencas | skóre: 32
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Můj oblíbený je z manuálu watch:

     You can watch for your administrator to install the latest kernel with

              watch uname -r

9.3.2010 19:20 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

watch --differences

9.3.2010 07:51 stanyjol | skóre: 13
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd) - offtopic

přísloví není japonské, protože dynastie Ming byla v Číně :-D

9.3.2010 15:11 Radek Hladik | skóre: 20
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd) - offtopic

A sakra, to se mi ty historické znalosti a lidová moudra pletou.... Tak že by to říkali dávní samurajové? No každopádně poučné to zůstavá dodnes. :-)

9.3.2010 18:38 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd) - offtopic

To máte fuk, ja si zase myslel, že to je normální český přísloví. Každopádně, existuje i jiná verze - "dvakrát řež, jednou měř, nastavit se to dá vždycky".

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

9.3.2010 22:59 Kvakor
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd) - offtopic

Rayovo pravidlo přesnosti z Murphyho zákonů:

Měř mikrometrem.
Označuj křídou.
Odděluj sekerou.

Kôli takýmto veciam milujem Linux, ale väčšina ľudí aj tak ostane v nevedomosti a budú sťahovať cracknuté softvéry na Widle, preto Linux nikdy neprerazí, pretože väčšina ľudí je udretá na búdku, stačí zajsť do Teska a pozerať sa okolo seba, David is king.

9.3.2010 20:01 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Souhlas. Kamarád zrovna teď o víkendu známému zachraňoval data ze chcípajícího disku a jak jsme o tom diskutovali, přišla i řečnická otázka - "jak by se tohle asi sakra dělalo na widlích?" :). Ne, že by to nešlo, ale určitě ne tak elegantně a kdo ví, jestli vůbec zadarmo (s volně dostupným softwarem).

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

9.3.2010 21:31 Net
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Preto si vážim ľudí ktorý vedia viac ako ja | grep odpoveď.

9.3.2010 23:31 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Já jsem takhle před několika lety zachraňoval kámošoj data z widlí linuxem, v příkazový řádce pochopitelně - chvíli na to koukal a pak komentoval "aha, hele, už hackuje, no jo, tyvole, to je hacker, jak z [jméno jakéhosi jistě "kvalitního" holywood filmu]...". S takovýmhle přístupem je to těžký...

SPD vůbec není proruská

10.3.2010 13:54 JirkaK | skóre: 15 | blog:
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Jo, tohle taky znám. No aspoň to má tu výhodu, že člověk pak vypadá jako "guru, co ví o těch počítačích úplně všechno" :)

** Počítač bez window$, to je jako ryba bez bicyklu... ** echo 'Kdo neskáče, není Čech!'|sed s/Čech/cvičená\ opice/

10.3.2010 18:17 Zopper | skóre: 15
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

To je výhoda? Mě to zas tak moc nepřijde... Umí s Linuxem => umí se vším, co funguje na elektřinu a pak po vás chtějí radit s koupí pračky...

"Dlouho ještě chcete soudit proti právu, stranit svévolníkům?" Ž 82,2

Ja to vzdy slysel jako disk dump a dava to smyl, ale to mozna vzniklo az pozdeji....

10.3.2010 10:37 tsLnox | skóre: 31 | blog: Blog jednoho ukecaného Gentoolemana | Žďár nad Sázavou
Rozbalit Rozbalit vše Re: dd != disk dump?

nebo data dump, to by bylo možná přesnější :) ale zní to logicky :)

Amest I bovvered, forsooth?

10.3.2010 10:49 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: dd != disk dump?

Já jsem si vždycky myslel, že dd je "data dump"... hm, co se člověk nedoví...

SPD vůbec není proruská

10.3.2010 13:20 bhy | skóre: 36 | blog: bhyblog | brno
Rozbalit Rozbalit vše Re: dd != disk dump?

já kdesi slyšel "data duplicator"

Pomoci dd mam zazalohovany disk s Windows. Vzdycky, kdyz ma dojit na preinstalovani, tak misto mnohahodinoveho martyria pustim dd a pote jen updatnu system ze site (a obcas si pak vysledek zase zazalohuju, abych priste nemusel tahat tolik updatu). Poprve je treba ale vynulovat cely disk, aby hruba zaloha sla zkomprimovat. Pro ciste Visty pak zaloha zabira asi 10 GB.

Je to velmi uzitecny nastroj, pokud se musite potykat s necim podobnym.

10.3.2010 10:44 Jiří Svoboda | skóre: 37 | blog: cat /dev/mind | Prostějov
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Na to je lepší použít 'partimage' nebo něco podobného. Zálohuje (a komprimuje) jen opravdu použité části disku (funguje i s NTFS).

Vynulovat nepoužité části NTFS disku se jinak dá i z již nainstalovaných Windows, je na to program 'sdelete.exe' (dříve sysinternals, dnes Microsoft). Mj. se to hodí při zmenšovaní virtuálních disků.

10.3.2010 11:20 Karlik
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

No vidis, a pritom stacil obycejny dd.

10.3.2010 11:49 Jiří Svoboda | skóre: 37 | blog: cat /dev/mind | Prostějov
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

To jo, ale trvá to desetkrát tak dlouho.

11.3.2010 10:37 Karlik
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Hmmm, s dd mi to zabere asi dve minuty. Zbytek bezi v dobe, kdy u toho nemusim byt. Nemusel jsem ani hledat, ktere nastroje to umi.

A hlavne, jak se obnovi ze zalohy, kdyz Windows uz nejsou schopny behu?

11.3.2010 10:40 Karlik
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Sorry, ted vidim, ze je to linuxovy nastroj.

10.3.2010 14:32 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Vynulovat nepoužité části NTFS disku se jinak dá i z již nainstalovaných Windows, je na to program 'sdelete.exe' (dříve sysinternals, dnes Microsoft).

Nebo opět to dd - dd if=/dev/zero of=/mnt/ntfs/bigfile :-)

10.3.2010 20:14 Jiří Svoboda | skóre: 37 | blog: cat /dev/mind | Prostějov
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Já si připadám, jako byste se rozhodli ze mně udělat nepřítele 'dd'. :-)

Opak je ale pravdou, je to můj velmi oblíbený příkaz. Jen jsem chtěl upozornit, že na zálohu NTFS jsou lepší nástroje.

10.3.2010 19:21 Kvakor
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Na kopírování NTFS je tu přímo nástroj ntfsclone z ntfstools.

10.3.2010 20:24 Jiří Svoboda | skóre: 37 | blog: cat /dev/mind | Prostějov
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Tak tohle jsem neznal. Přečtení toho 'man'u mě ale nepřesvědčilo, že funguje lépe než 'partimage'.

To už bych víc sázel na FSArchiver, který jako jediný umí obnovit data do menší partition (zatím jsem nezkoušel).

11.3.2010 12:59 Kvakor
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Pravděpodobně funguje stejně jako Partimage - princip "kopíruj jen použité bloky/clustery" je totožný. Jediný rozdíl bych viděl v kvalitě podpory - Partimage má stále poporu NTFS označenou jako experimentální, viz Supported Filesystems.

Nejak nechapu rozdil mezi tim, kdyz pouziju -b a -C na textovej soubor. Vysvetli nekdo pls? Nebo spis bych to videl na chybku v clanku, protoze:

Obsahuje-li soubor řádek delší, než je zadaná velikost, daný řádek bude rozdělen do více souborů.

a tohle:

# rozdělí „soubor.txt“ tak, aby v každé části byl co největší počet
# kompletních řádků, který se vejde do 2 MB

si protireci.

10.3.2010 17:11 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

No, rozdíl v tom je. Přepínač -C se snaží uložit do souboru pouze celé řádky, ale když je tam jeden řádek, kterej přesáhne zadanou velikost, no tak se nedá nic dělat a rozdělí ho.

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

12.3.2010 16:51 merlyn
Rozbalit Rozbalit vše Re: Unixové nástroje – 11 (split, dd)

Ach tak... mozna by nebylo od veci tam napsat, ze kdyz ten _jeden samostatnej_ radek je vetsi nez ten celej soubor, ja to spatne pochopil, a nemyslim, ze bych byl sam.

Unixové nástroje – 11 (split, dd)

Obsah

split

dd

Seriál Unixové nástroje (dílů: 27)

Související články

Odkazy a zdroje

Další články z této rubriky

Diskuse k tomuto článku