ZIP – málem jsem přišel o data; mám rád rdiff-backup

Tak jsem narazil na limit ZIP archivu, o kterém jsem neměl povědomí. Nebýt rdiff-backup, tak jsem přišel o data.

Při balení souborů utilitou zip vznikl archiv velký zhruba 5,6 GiB. Pokud vím, tak balení proběhlo bez chybových hlášení a zip skončil s nulovým návratovým kódem. Naštěstí jsem se druhý den ještě na archiv díval a zarazilo mne, že Krusader v jeden moment při procházení zahlásil chybu. Ani zip po sobě nedokázal archiv rozbalit – data za 4 GiB byla nečitelná, původní soubory jsem mezitím smazal.

Přiznám se, že o tomto limitu ZIP archivů na maximálně 4 GiB jsem nevěděl. Dodatečně mi kolega říkal, že ZIP archivy prý mají ještě spoustu dalších nepříjemných limitů (na délku cesty, maximální velkost jednoho souboru apod.). To by mi ani tak nevadilo, ale co mne opravdu zaráží je to, že zip soubory bez jediného varování zabalil i přes limit a nakonec se tvářil, že je vše v nejlepším pořádku. Takto by se programy opravdu chovat neměly.

Jediné štěstí bylo, že vstupní soubory mi před tím několik dní ležely na disku nekomprimované. Nad ránem mi všechny soubory zálohuje rdiff-backup, takže je stačilo obnovit ze zálohy.

Docela mne překvapuje, že je o rdiff-backup poměrně málo slyšet a spousta lidí o něm neví. Podle mého je to geniální zálohovací nástroj (takže mu tu zkusím udělat trošku reklamu ;-)

Ideálně by dle mého měla být záloha v podobě samostatných normální souborů, případně souborů uložených v nějakém standardním rozšířeném archivu (typu ZIP, 7ZIP, TAR apod.). Prostě tak, aby bylo možné data obnovit standardními prostředky operačního systému (cp, tar, unzip...) bez potřeby pomoci použitého zálohovacího programu (člověk nikdy neví, jestli zálohu nebude potřebovat obnovit někde úplně jinde nebo za nějaký čas nezjistí, že potřebuje obnovit starou zálohu, u které ani pořádně neví, čím byla vyrobena). Určitě bych se vyhnul různým uzavřeným řešením, která zálohují do nějakého vlastního binárního formátu. Když zálohu nepůjde obnovit, tak je člověk v háji. Navíc se dost těžko zjišťuje, jestli zálohování vůbec proběhlo korektně (a bylo zálohováno všechno, o čem si člověk myslí, že bylo) apod.

Tohle řeší rdiff-backup. Je to snadno použitelný multiplatformní nástroj (Python) a bere ohledy na specialitky různých operačních systémů, respektive jejich filesystémů (a to i když běží pod jiným typem systému; např. informace o přístupových právech zachová, i když je záloha uložena na disku se souborovým systémem FAT – metadata o zálohovaných datech jsou rdiff-backupem uložena jako součást zálohy v běžných souborech ve speciálním adresáři na záložním médiu), přes síť pracuje podobně jako rsync, tzn. přenosy jsou efektivní.

Zálohování je transparentní – poslední záloha je úplně normální kopie souborů a adresářů (obnova pomocí cp). Starší zálohy je možné získat pomocí rdiff-backupu (v případě nutnosti by to ale snad šlo nějak rozparsovat i „ručně“) – do toho speciálního adresáře s metadaty se totiž ukládají rozdíly aktuální zálohy oproti předchozí verzi, takže je možné obnovit kteroukoliv předchozí verzi zálohy (protože se ukládají jen rozdíly (případně komprimované), tak to neplýtvá místem).

rdiff-backup se navíc „zdarma“ postará i o kontrolu konzistence všech verzí zálohy, protože součástí metadata jsou SHA-1 součty všech zálohovaných souborů. Dá se tak snadno ověřit, že je záloha v pořádku a záložní médium nám tiše nedegraduje (plus se to dá použít k rychlému důkladnému porovnání zálohy s aktuálním stavem dat – celé soubory se čtou jen z primárního úložiště, ze záložního (potencionálně pomalého) média se přečtou jen kontrolní součty).

Komentáře

Absolutně nechápu proč ještě používat ZIP.

6.11.2010 22:00 Cohen | skóre: 21 | blog: Drobnosti | Brno
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Napadají mne hned dva – rozšířenost (tzn. nikdo – ani BFU na Windows bez nainstalovaného dodatečného software – nemá problém s rozbalením), rychlé listování obsahem archivu (to je hlavní důvod pro mne, proč místo TARu někdy používám ZIP).

OpenPGP key fingerprint: 489C 5EC8 0FD6 2BE8 9E59 B4F7 19C1 3E8C E0F5 DB61 (https://www.fi.muni.cz/~xruzick7/pgp-klic/)

7.11.2010 00:25 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

rychlé listování obsahem archivu (to je hlavní důvod pro mne, proč místo TARu někdy používám ZIP).

To jsem nějak nepobral. Vždyť PKZIP má Central Directory signaturu až na konci archivu, ne?

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

7.11.2010 01:38 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Možná má Cohen na mysli, že se k jednotlivým souborům dostane rychleji, protože u ZIPu je každý soubor komprimován samostatně, kdežto u TAR + něco (např. GZIP, BZIP2, LZMA...) je komprimován archiv jako celek, takže na rozdíl od ZIPu nelze přímo přistupovat k jednotlivým souborům.

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

7.11.2010 10:59 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

To též nějak nechápu. Program tar je přímo s těmi kompresními metodami slinkován, takže stačí jen zadat konkrétní kompresní metodu a jak čte program tar stream, tak ho automaticky rozbaluje a hledá si v něm vše potřebné (metadata). A díky řazení metadat je to ještě rychlejší než u toho PKZIPu a díky tomu, že bloková komprese se vztahuje na komplet celý archiv, tak může být účinnější (např. pro spousty malých podobných souborů). -z pro gzip, -j pro bzip2, -J pro xz, --lzma pro lzma. Takže např. pro *.tar.bzip2:

tar -tvjf neco.tar.bz2 pro vylistování souborů.
tar -xvjf neco.tar.bz2 pro rozbalení celého archivu
tar -xvjf neco.tar.bz2 cesta/ke/konkretnimu.souboru pro vytažení konkrétního souboru bez nutnosti rozbalovat celý archiv
…

No a různé archviční programy s tím už také počítají, takže se nikde nic nemusí celé rozbalovat. V případě GNU má obyčejný PKZIP (a nástroj Info-ZIP) jen samé nevýhody a omezení oproti zaběhlým archivům.

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

7.11.2010 11:03 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

-z pro gzip, -j pro bzip2, -J pro xz, --lzma pro lzma.

Ba co víc.

Popular tar programs like the BSD and GNU versions of tar support the command line options -z (gzip), and -j (bzip2) to automatically compress or decompress the archive file it is currently working with. GNU tar from version 1.20 onwards also supports --lzma (LZMA). 1.21 also supports lzop via --lzop, 1.22 adds support for xz via --xz or -J, and 1.23 adds support for lzip via --lzip. Both will automatically extract compressed gzip and bzip2 archives with or without these options.

Tudíž stále nechápu o čem je řeč.

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

7.11.2010 11:31 Cohen | skóre: 21 | blog: Drobnosti | Brno
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Mám tu GNU tar 1.21 na openSUSE 11.2. Faktem ale je, že není možné snadno projít obsahem archivu. Příklad: V Krusaderovi vstoupím od ZIP archivu jako do adresáře a prakticky okamžitě vidím adresářovou strukturu. Pokud to stejné zkusím udělat s komprimovaným TARem, tak to chvíli trvá (dle velikosti archivu) a je vidět, že musel dojít k dekompresi celého archivu. To stejné se děje pod Windows např. v Altap Salamander.

Nakonec ani výše popsané tar -*vjf IMHO nepracují jinak – tar stejně musí sekvenčně projít celý archiv a celý ho dekomprimovat – to že dekompresi zvládne sám a nepotřebuje k tomu externí program na tom nic nemění.

To, že komprese celého archivu místo jednotlivých souborů je účinější je samozřejmě pravda, nicméně těch pár ušetřených procent na velikosti archivu při dnešních cenách disků dle mého absolutně nevyváží nepohodlí při práci s takto komprimovaným archivem.

Velká škoda, že 7-Zip nepodporuje unixové speciální soubory (linky apod.).

OpenPGP key fingerprint: 489C 5EC8 0FD6 2BE8 9E59 B4F7 19C1 3E8C E0F5 DB61 (https://www.fi.muni.cz/~xruzick7/pgp-klic/)

7.11.2010 11:42 chrono
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

... to že dekompresi zvládne sám a nepotřebuje k tomu externí program na tom nic nemění ...

Tar potrebuje externé programy (len ich vie použiť automaticky).

7.11.2010 11:48 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Knihovny, ne programy. A to je sakra rozdíl.

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

7.11.2010 12:03 chrono
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Myslíš? Skús napr. vymazať/premenovať gzip a použi tar na rozbalenie .tar.gz archívu (prípadne pozri ldd tar).

7.11.2010 11:43 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Aha. No je pravda, že s náhodným přístupem to fakt není sranda. O tom, který z použitých způsobů je lepší se tu můžeme hádat (On také nikdo nebrání udělat si *.gz.tar archiv).

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

7.11.2010 15:31 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Rozdíl je v tom, že ZIP má všechna metadata na jednom místě. Takže se přečtou metadata, a hned víte, co je uvnitř. Tar má ale metadata u každého souboru, takže abyste z komprimovaného taru dostal seznam souborů, musí se nejprve celý dekomprimovat.

7.11.2010 11:41 R
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Viem, ze blby nie si, tak sa nehraj na debila. Schvalne si zober nejaky 500MB .zip a 500MB .tar.gz a porovnaj si cas trvania "unzip -l test.zip" s "tar tf test.tar.gz". Ze je zoznam suborov na konci archivu, to neznamena nic, kedze mame operaciu seek().

7.11.2010 11:47 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Já jen že na nekompletní zipech se seekuje docela dost blbě (osobní zkušenost – jsem to musel dělat přes ruční hledání ZIP hlaviček, pípu, funzip a zkoušení a odhadování) a pokud nepočítám tedy tu Central Directory signaturu na konci, tak to s náhodným přístupem není o moc snazší u těch zipů.

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

7.11.2010 11:50 chrono
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

zip -FF prejde nekompletný archív, nájde v nom úplné súbory, skráti ho a na koniec pridá potrebné údaje.

7.11.2010 10:21 ____ | skóre: 15 | blog: _
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Ale ano, někdo problém má, na GNU/Linuxu většinou není důvod proč nějaký zip instalovat (nicméně těch pár set kilobajtů navíc pro ty ojedinělé případy neuškodí). Většina civilizovaného světa přešla na RAR a 7zip, alespoň dle mého pozorování.

7.11.2010 18:17 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

RAR

Asi máme jiné představy o civilizaci :).

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

7.11.2010 21:31 ____ | skóre: 15 | blog: _
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

A to by mě zrovna zajímaly důvody. Mně na něm sice vadí, že je to uzavřený formát, nicméně co se týče kompresního poměru, zvládá svoji práci na jedničku, a to není jeho jediná přednost.

8.11.2010 02:53 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

A to by mě zrovna zajímaly důvody. Mně na něm sice vadí, že je to uzavřený formát, nicméně co se týče kompresního poměru, zvládá svoji práci na jedničku, a to není jeho jediná přednost.

V podstatě asi hlavně praktické důsledky toho, co píšeš. Tedy, že v části prostředí, kde se pohybuju, je potřeba software pro rar nejen doinstalovat (s tím bych byl celkem smířený), ale ještě třeba není součástí oficiálních repozitářů... takže jako formát archivu na péčko fajn, ale těžko bych to doporučil na něco pracovního.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

8.11.2010 11:08 Cohen | skóre: 21 | blog: Drobnosti | Brno
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Hlavně proč používat RAR? Kvůli kompresnímu poměru? 7-Zip s LZMA ho pobije. Speciální unixové soubory (linky apod.) neumí ani RAR ani 7-Zip, ale 7-Zip je open-source.

OpenPGP key fingerprint: 489C 5EC8 0FD6 2BE8 9E59 B4F7 19C1 3E8C E0F5 DB61 (https://www.fi.muni.cz/~xruzick7/pgp-klic/)

8.11.2010 12:58 default | skóre: 22 | Madrid
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

takže jako formát archivu na péčko fajn

Nejlepší formát na péčko je mov či m4v. Nemusíš nic rozbalovat ani shánět kodeky. :-D

8.11.2010 13:03 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Blbost. Na péčko nejvíc ruluje Matroška s mnohem větší kupou featur a lepším návrhem. MOV je pro lamy co si neumějí udělat v odšťavovači dobrý jablečný mošt.

BTW: Co je to ten m4v. Jsem to zahlédl u Silverlightu. To asi nebude nic Applího, když v tom má prsty i Microsoft, že?

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

8.11.2010 13:15 default | skóre: 22 | Madrid
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Blbost. Na péčko nejvíc ruluje Matroška s mnohem větší kupou featur a lepším návrhem.

A k čemu ti tady v tomto případě ty features jsou? To jako že si s tím videem stáhneš i lubrikační gel či co? :-D

BTW: Co je to ten m4v. Jsem to zahlédl u Silverlightu. To asi nebude nic Applího, když v tom má prsty i Microsoft, že?

Dovzdělej se. :-D

8.11.2010 16:05 Grunt | skóre: 23 | blog: Expresivní zabručení | Lanžhot
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

A k čemu ti tady v tomto případě ty features jsou? To jako že si s tím videem stáhneš i lubrikační gel či co?

Třeba na to abych vypnul ty debilní komentáře režiséra.

Na co 64-bitů když to jde i s jedním? | 80.78.148.5 | Hack (for) free or Die Hard!

8.11.2010 16:23 default | skóre: 22 | Madrid
Rozbalit Rozbalit vše Re: ZIP – málem jsem přišel o data; mám rád rdiff-backup

Nebo aby sis mohl poslechnout alternativní dubbing v Polštině, popřípadě zapnul čínský titulky. To kdyby ti ta scéna připadala nejasná, že? :-D

ZIP – málem jsem přišel o data; mám rád rdiff-backup

Hodnocení: 100 %

Komentáře