Portál AbcLinuxu, 8. května 2025 13:49

Dotaz: Deduplikace na větším BTRFS

29.1. 16:27 pet I. | skóre: 13
Deduplikace na větším BTRFS
Přečteno: 895×
Odpovědět | Admin
Máme systém s 10 TiB BTRFS (2× 10T raid1) zaplněný na 90%. Archivujeme na něm kopie zákaznických instalací (stromy souborů) ve spoustě subvolumů a potřebovali bychom je deduplikovat abychom ušetřili místo.

Zkoušel jsem příkaz
duperemove -drA --dedupe-options=nofiemap --hashfile=/data/data.hash /data/
ale padá na nedostatku paměti.

Systém má 16 GiB a i přesto, že jsme měli připojený 256 GiB SSD jako swap device, tak to po cca měsíci spadlo. Tento program chce napřed vše načíst a až pak začne deduplikovat.

Může mi někdo doporučit postup jak to zdeduplikovat aniž by to potřebovalo tolik paměti?

Řešení dotazu:


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

Řešení 1× (pet I. (tazatel))
29.1. 16:57 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Odpovědět | | Sbalit | Link | Blokovat | Admin
a proc pouzivate duperemove a ne treba bees? https://github.com/Zygo/bees
29.1. 17:41 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Andrěj, prehlásilo ťa to.
29.1. 20:08 pavele
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Nemůžeš to zkusit pustit postupně na jednotlivé subvolumes?

Zkusit nastavit velikost bloku na 64k? (-b 64K)

https://wiki.tnonline.net/w/Blog/Duperemove

https://unix.stackexchange.com/questions/711367/is-there-a-way-to-consolidate-deduplicate-btrfs
30.1. 15:21 pet I. | skóre: 13
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Díky, myslím že bees použijeme. Jen ještě počkám na stabilní verzi 0.11, ta by měla být pro nás asi vhodnější než teď stabilní 0.10 a rc nechci na velkých datech riskovat.
30.1. 14:41 Pozor!
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Odpovědět | | Sbalit | Link | Blokovat | Admin
To jako harddisky na zivem systemu povazujete za archivaci? Nez spustis bees nebo jiny dedupe tak se doporucuje full backup externi zaloha protoze pri dedupe muzou narust metadata a to pri 90% zaplnenosti zavani pruserem. Nejlevnejsi bude poridit externi disk a tam provest zalohu.
30.1. 15:41 pet I. | skóre: 13
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
No "archivujeme", je to jen takový příruční archív.

Originál je u zákazníka v provozu, většinou na dvou serverech (provozní, záložní), taky by si měl udržovat aktualizované instalační medium na externím HDD, a u nás držíme binární kopii (i s historií změn kterou asi nikdy neužijeme). No a kromě toho jsme schopni instalaci zrestaurovat nezávisle na tomto archivu, jen by to dalo více práce.
30.1. 20:26 Bozpor?
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
je spis smutenjsi, ze dneska vetsina ajtaku nevi, co archivace je... archivace != zaloha
30.1. 22:08 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Archív je ten ZIP súbor, a mohol by som ho vidieť?

Napríklad na LTFS by mohol byť.
31.1. 10:33 @
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
To uz onanujes :) zalohu muzes archivovat i archiv muze poslouzit jako zaloha
31.1. 10:38 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Keď ti legislatíva nariaďuje napríklad 10 ročnú retenciu dát, tak vyjdú disky drahšie ako pásky. A disky sú aj menej spoľahlivé.
31.1. 21:31 pavele
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Papír vyjde laciněj.
31.1. 21:54 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Pozrel by som si cenové porovnanie archivácie papiera a pások na dnes už smiešnych 10TB údajov.
1.2. 17:30 Peprnicek
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Zalezi jestli jen chces pro-forma vyhovet legislative nebo chces ty data o 10let i precist. Kdyz to druhe tak resis minimalne 3-2-1 zalohu a tak mas jak HDD tak i DAT, nebo co je prave technologickym hitem. A pripadne si priplatis i ulozeni v Artic World Archive :-D
1.2. 19:39 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
DAT je audio páska, na tú by som údaje nearchivoval z viacerých dôvodov. Ak si ju pletieš s DDS (vyzerajú podobne), tak tie nemali garanciu udržania údajov 10 rokov. A tiež by som si pozrel dátové médiá ktoré majú v rozsahu skladovacích teplôt tebou odporúčaný "permafrost".

Tie tvoje rady sú jak keby na teba na Linked.IN vyskočila reklama na kataster. Choď tam robiť, určite je tam pre teba voľné miesto.
Max avatar 6.2. 08:39 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Deduplikace na větším BTRFS
Nemusíš hned v Artic World Archive. U nás jsou poskytovatelé úložišť, které ti garantují nejvyšší úroveň zabezpečení, zaplombování, převozy a další věci, vše auditovatelné atd. A ty ceny nejsou nijak strašné, spíše dost levné, řekl bych.
A navíc mají služby, že ti najdou to, co hledáš, do nějaké doby. Takže pokud u nich uchováváš hafec kontejnerů s papírama, tak ti jsou schopný do nějaké doby najít a dodat konkrétní papír.
Zdar Max
Měl jsem sen ... :(

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.