Portál AbcLinuxu, 25. dubna 2024 02:32

Unixové nástroje – 8 (diff a patch)

3. 2. 2010 | David Watzke
Články - Unixové nástroje – 8 (diff a patch)  

Tentokrát se podíváme na vytváření a aplikaci patchů, neboli záplat. Představíme si totiž programy diffpatch.

Obsah

diff

link

diff je program sloužící k porovnání dvou textových souborů a vypsání rozdílů mezi nimi. Název vychází z anglického slova difference, což znamená rozdíl. Výstup programu se obvykle ukládá do souboru a těmto souborům se říká patche nebo česky záplaty. Tyto soubory mají obvykle příponu .patch nebo .diff.

Tento program často používají programátoři, a to nejen pro zdrojový kód, ale pro libovolný text v projektu. Když se totiž větší patch zkomprimuje, jde o dobrý způsob jak šířit změny v programu oproti předchozímu vydání. Představte si projekt, jehož balík se zdrojáky má 200 MiB. Vývojáři změní 2000 řádků v různých souborech. Místo toho, aby vydali (pouze) novou setinkovou verzi a nutili lidi, kteří si stáhli předchozí verzi, stahovat zbytečně znova celý balík, poskytnou navíc ještě záplatu, která může po zkomprimování zabírat klidně i méně než 1 KiB.

Základní použití je velice prosté. Mějme dva soubory obsahující třeba 2 stejné řádky, dále jeden řádek, který bude v každém souboru jiný a dva řádky, které jsou obsaženy pouze ve druhém souboru.

diff stary.txt novy.txt
3c3
< Python
---
> Perl
4a5,6
> Haskell
> Pascal

Možná se divíte co znamená „4a5,6“ (a „3c3“). Jsou to v podstatě souřadnice textu. První číslo (4) značí řádek, na kterém začíná změna. Znak za ním (a) značí, o jakou změnu jde. Pokud se změnil řádek, šlo o change (změnu). Pokud byl řádek přidán, šlo o add (přidání). Další číslo (5) značí řádek, na kterém změna začíná. Pokud změna není jednořádková (jako v případě „3c3“), za čárkou následuje ještě další číslo (6), které značí číslo řádku, na kterém změna končí.

Programátoři tento výchozí formát programu diff nevyužívají nejspíš zejména proto, že by při aplikaci patche mohlo dojít k omylu. Často se totiž patch aplikuje s jistou tolerancí vůči tomu, když nesouhlasí čísla řádků. K tomu dojde, třeba když na program verze 1.0.1 aplikujeme patch, který byl vytvořen pro verzi 1.0.0. Aby se omylu předešlo a bylo bezpečné této tolerance využívat, existuje další formát. Tím se dostáváme k přepínačům -u-U. Tento formát kolem samotných rozdílů obsahuje sjednocený (unified) kontext. Tedy neobsahuje pouze změněné řádky, ale i pár řádků okolo. Přepínač -U umožňuje nastavit velikost kontextu, přičemž -u nastavuje napevno 3 řádky. Přepínač -u je tedy ekvivalentem -U3. Výstup může vypadat takto:

diff -u pole.c.old pole.c
--- pole.c.old  2010-01-26 16:17:07.854861691 +0100
+++ pole.c      2010-01-26 16:17:13.320576007 +0100
@@ -10,4 +10,6 @@
                p[i] = i+1;
                printf("%d\n", p[i]);
        }
+       free(p);
+       return;
 }

Zde si můžete všimnout třířádkového kontextu kolem změny. Pod změnou již tři řádky nebyly, proto je tam pouze jeden. Když je více změn poblíž u sebe (v rámci kontextu), tak se vygeneruje rozdíl do jednoho bloku.

Přepínače -c-C jsou podobné -u-U, ovšem s tím rozdílem, že kontext kolem změn není sjednocený, ale identický s originálem.

S přepínačem -b diff ignoruje mezery před konci řádků.

Dále byly standardizovány přepínače -e-f. První z nich zajistí generování výstupu, který je vhodným vstupem pro program ed. Druhý vyprodukuje podobný alternativní formát.

Jako poslední zmíním přepínač -r, který aktivuje rekurzivní režim. Lze pomocí něj vygenerovat rozdíl z více souborů najednou:

diff -ru program-1.0/ program-1.0.1/

patch

link

Nástroj patch slouží k aplikování patchů (záplat), které umí generovat výše zmíněný program diff.

Základní použití vypadá takto:

patch -i nejaky_patch.diff

Nejdříve si popíšeme nejzákladnější přepínače. Tím hlavním je -p. Vysvětlíme si jej rovnou na příkladu. Hlavička kontextového patche, který byl generován rekurzivně (viz výše), může vypadat třeba takto:

--- program-1.0/main.c 		2010-01-31 16:09:17.511327226 +0100
+++ program-1.0.1/main.c 	2010-01-31 16:09:36.300575801 +0100

Teď si představte situaci, kdy máte adresář se zdrojovými kódy nazvaný program-1.0 a záplatu s názvem program-1.0-1.0.1.patch, která obsahuje rozdíly mezi verzemi 1.0 a 1.0.1. Jak je aplikovat?

# zkopírujeme si zdrojáky do nového adresáře
cp -a program-1.0 program-1.0.1
# vstoupíme do nového adresáře
cd program-1.0.1/
# aplikujeme patch
patch -p1 -i ../program-1.0-1.0.1.patch

Takže co dělá -p? Ovlivňuje cesty k souborům, které program vyčte z hlavičky záplaty. Program dostane cestu program-1.0.1/main.c, jenže tam – relativně k adresáři, ze kterého patch spouštíme – soubor není. Je totiž přímo tam, tedy správně by bylo main.c. Přepínač -p s argumentem 1 v tomto případě z cesty odstraní jeden adresář zleva, takže zbyde jen main.c přesně tak, jak potřebujeme. Vzhledem k tomu, že když -p nezadáme, tak se odstraní celá cesta a použije se pouze název souboru, by se v tomto případě patch aplikoval i bez -p. Ovšem s -p0 by to nešlo z výše zmiňovaného důvodu; program by hledal program-1.0.1/main.c a nic by nenašel.

Dalším důležitý přepínač je -i, kterému jako argument zadáváme cestu k záplatě. To ale není jediný způsob, jak programu předat záplatu. Když totiž nedostane žádný soubor, tak čeká na vstup. Můžeme použít klasické přesměrování shellu. Tato vlastnost se ovšem hodí především při aplikaci komprimovaného patche, protože můžeme využít unixové roury k tomu, abychom se vyhnuli jednomu dočasnému souboru.

# předání záplaty pomocí přesměrování
patch < x.diff
# rozbalenou záplatu rovnou pošleme programu
bzcat patch-2.6.33-rc6.bz2 | patch -p1

Přepínač -R slouží ke změně podstaty aplikování záplaty. Zkrátka, když už je záplata aplikovaná, pomocí stejného příkazu navíc s -R můžete změny zase vrátit.

Pomocí přepínače -d si můžete ušetřit použití příkazu cd před záplatováním, protože když mu jako argument zadáte platnou cestu, nejdříve se do ní přepne.

Normálně se program snaží zjistit typ záplaty sám, ale chcete-li to z nějakého důvodu obejít, lze si to vynutit pomocí přepínačů. Pro kontextovou záplatu použijte -c, pro ed -e, pro normální -n a pro sjednocenou -u.

Užitečný přepínač je -b, který zajistí zálohování každého změněného souboru – před jeho změnou je soubor zkopírován s příponou .orig.

Seriál Unixové nástroje (dílů: 27)

První díl: Unixové nástroje – 1 (úvod, cat, head, tail), poslední díl: Unixové nástroje – 26 (triky pro práci v Bashi).
Předchozí díl: Unixové nástroje – 7 (tr, cut, sort a uniq)
Následující díl: Unixové nástroje – 9 (sed – nahrazování textu)

Související články

Seriál: BASH
Seriál: Nebojíme se kompilace
Regulární výrazy
Bash: chytré doplňování

Odkazy a zdroje

opengroup.org: diff
wikipedia: patch
opengroup.org: patch

Další články z této rubriky

VDR a DVB-T2, část 2.
VDR a DVB-T2, část 1.
Šifrovaný Proxmox VE 6: ZFS, LUKS, systemd_boot a Dropbear
MapTiler – proměňte obrázek v zoomovatelnou mapu
Syncthing

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.