Portál AbcLinuxu, 7. května 2025 22:09

Dotaz: btrfs deduplikace

1.6.2019 10:05 marek_hb
btrfs deduplikace
Přečteno: 625×
Odpovědět | Admin
Ahoj,uz se snad pomalu blizi konec meho stouraciho zachvatu a tim i spam s dotazama

Jeste bych chtel poresit dedupikaci - zkusil jsem rmlint (shreeder) a fdupes - oboje ma dost podobne vysledky (zkousim na dvou adresarich po cca 700GB dat- fotky a videa), ale nez to pustim dal na ostra (zalohovana) data pripadne i na ty zalohy, tak bych se chtel zeptat s cim mate na btrf skusenosti, nebo jake mate postupy.

Diky moc

M

Řešení dotazu:


Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

1.6.2019 10:28 j
Rozbalit Rozbalit vše Re: btrfs deduplikace
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tak vzhledem k tomu, ze ani jedinej z tech dvou jmenovanych toolu deduplikaci nedela, zajimalo by me co resis.

https://btrfs.wiki.kernel.org/index.php/Deduplication

Tudiz trebas: duperemove -drh --hashfile=/root/btrfs.data.hash /mnt/data/

Prvni run pobezi tak dlouho, jak vykonej mas CPU a diskovej subsystem, ale dlouho. Na nejakych 15TB dat neco mezi 3 dny az tydnem. Napocita si totiz hashe vsech bloku (pri zmineny velikosti ma ten soubor cca 8GB), a ... ulozi si je. Pri dalsich cyklech pocita hashe zmen, takze uz to nijak dlouho netrva. Kolik toho usporis, zalezi na bordelu jakej na disku mas. Klidne to muze hodit 30% i vic, specielne pokud na tom mas trebas uzivatelsky profily. Lidi sou totiz nehorazne tupi, a vsichni maji pocit, ze ten spolecnej share tam maj proto, aby si vsechno co na nem je natahali do profilu.
1.6.2019 10:41 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace

https://wiki.gentoo.org/wiki/Fdupes

http://www.abclinuxu.cz/blog/kenyho_stesky/2017/3/rmlint-reseni-duplicit

Vychazel jsem z treba z tehle odkazu - dumpremove zkusim

Dik moc

1.6.2019 12:26 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: btrfs deduplikace
Odpovědět | | Sbalit | Link | Blokovat | Admin
Deduplikace znamená, že máš stejná data na různých místech v adresářovém stromu a chceš je tam mít, ale chceš ušetřit místo, tak systém data bude mít jednou a budou se na ta data různé cesty. A je možné to mít na blokové i souborové úrovni. Pokud hledáš jak najít, co je duplicitní, a něco smazat, tak možná by ti pomohl tenhle můj blog, kdy jsem ulízel asi před 5 lety.
1.6.2019 14:09 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace
Diky za upresneni a odkaz - ted mi jde o to, ze oba adresare se castecne prekryvaji a chtel bych to dostat do stavu, ze data tam budou vzdy jednou. A pokud mozno v "zakladnich" adresarich - ne v pokus, pracovni, sdilene, pro web a podobne...

Celkem se mi dari diky digikamu a jeho volbe "alba zalozena na datu" mit soubory roztridene a i jednotlive adresare mam vetsinou za datem pojmenovane. Ale i tak mi treba ten schreder nabidl ke smazani skoro 70 giga vseho moznyho. Poblem jsou hlavne videa zamichana do fotek.
Jendа avatar 1.6.2019 15:41 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: btrfs deduplikace
Tak to ale nesouvisí s btrfs.
1.6.2019 15:49 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace
To asi ne, ale oboje mam na btrfs, tak jsem to uvedl a i nahore jsem dostal odkaz na btrfs wiki
Jendа avatar 1.6.2019 15:53 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: btrfs deduplikace
Ale to co ti posílal j je něco jiného -- ta data budeš mít furt v obou adresářích (je to vlastně něco jako kdybys natahal hardlinky s tím, že to funguje i jen pro části souborů a když jeden z těch souborů změníš, automaticky se to zase rozdělí).
1.6.2019 16:58 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace
Ok, dik, snad to zacinam chapat - co se s tim stane kdyz to prenesu na ext4? Zitra se k tomu dostanu, tak to vzkousim
Jendа avatar 1.6.2019 17:03 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: btrfs deduplikace
Ok, dik, snad to zacinam chapat - co se s tim stane kdyz to prenesu na ext4?
Smazané soubory zůstanou smazané ;), deduplikace nebude fungovat, takže se to jednoduše rozkopíruje víckrát.
1.6.2019 17:09 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace
Jo, tak to je to, co nepotrebuju. Proto jsem radsi zminil fs.
2.6.2019 10:59 j
Rozbalit Rozbalit vše Re: btrfs deduplikace
To chces ale neco jinyho nez deduplikaci. A problem tohodle pristupu je pak predevsim v tom, ze spoustu veci rozbiji. Jednoduse proto, ze spousta veci muze vyuzivat stejnej soubor, ale ocekava ho nekde jinde, tzn pri deduplikaci maji soubor kde chteji, ale na disku je jednou, kdezto pri odmazavani duplicitnich souboru to jednoduse rozbijes.

Sekundarne odmazavani se neda v 99% delat nijak automatizovane, protoze prave kvuli tomu abys neco nerozbil, musis nejak manualne rozhodovat, co nechat a co smazat, kdezto deduplikaci si das do crona a nemusis to dal resit.

A pak je tu samozrejme i ta cast, ze odmazat muzes jen exaktne stejny soubory, kdezto deduplikace ti resi i soubory, ktery sou stejny jen castecne.

Jinak pro widle je celkem pekny tohle http://www.alldup.info/
2.6.2019 11:42 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: btrfs deduplikace
Existují tři různé způsoby, jak tohle udělat, přičemž každý má jiné vlastnosti. Vy jste nenapsal, co od toho čekáte, takže se nedá říct, který způsob je pro vás správný.

První způsob je použití symbolických odkazů (symlink). Soubory budou skutečně v nějakém základním adresáři, z ostatních adresářů na ně povede jenom odkaz (na jméno). Když ten základní soubor změníte, změní se i obsah, který vidíte přes odkaz. když základní soubor přejmenujete nebo smažete, odkaz se stane neplatným a k souboru už se přes něj nedostanete.

Druhý způsob je použití pevných odkazů (hardlink). Data souboru jsou pak na disku uložená jenom jednou, ale v souborovém systému je ten soubor dostupný pod různými názvy z různých adresářů. Ve skutečnosti na unixových systémech (včetně linuxu) je každý soubor takový pevný odkaz – obvykle je jenom jeden, ale klidně jich můžete mít víc. Když pak změníte obsah souboru pod jedním názvem, změní se i pod všemi ostatními názvy (protože všechny názvy odkazují na jeden obsah souboru). Když jeden soubor (přesněji jeho název) smažete, zůstává pořád dostupný pod dalšími názvy. K fyzickému smazání obsahu souboru dojde teprve tehdy, když počet odkazů klesne na nulu.

Oba předchozí způsoby podporují všechny běžně používané linuxové souborové systémy – ext[234], btrfs, XFS, ReiserFS atd. Ale třeba FAT ani FAT32 neumí ani jeden typ odkazů. NTFS má také různé odkazy, které se ale chovají trochu jinak, než ty unixové.

Třetí způsob je deduplikace na úrovni souborového systému. Nepodporují ji ani všechny linuxové souborové systémy, umí ji např. btrfs, řeší se to i v XFS, ale nevím, jaký je aktuální stav. Když se používá deduplikace, mohou být stejná data z různých souborů uložena na souborovém systému také jen jednou, tím se to podobá pevným odkazům. Od pevných odkazů se to ale začne odlišovat v okamžiku zápisu – nová data se zapíšou na nové místo, a na tohle nové místo začne ukazovat jenom ten soubor, který jste měnil. Ostatní soubory, které ukazovaly na stejný obsah, budou ukazovat pořád dál na ten původní. Z vnějšku se to chová jenom jako chytré šetření místem – dokud jsou data na disku stejná, jsou tam jenom jednou, jakmile se mají změnit, udělá se jejich kopie a každý soubor má svá data.
2.6.2019 17:51 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace
omlouvám se, měl jsem hokej mezi deduplikací a odstraněním duplicit -

čekám od toho, že dostanu adresář adresář "Fotky" a "Videa", kde budou všechny soubory jen jednou a v to v hlavních adresářích - nepotřebuju aby se na soubor odkazovalo z více míst, další krok asi bude najit a smazat prázdné adresáře, které vzniknou vymazáním duplicit

je mi jasné, že bez manuálního zásahu to nepůjde, snažím se najít nejjednodušší a nejbezpečnější postup - narazil jsem ted na programy v gui - dupeguru, fslint, které by mohly umět co potřebuju, případně zkusím volby toho fdupes

díky za opravu a rady

Řešení 1× (Filip Jirsák)
3.6.2019 07:03 marek_hb
Rozbalit Rozbalit vše Re: btrfs deduplikace
Příloha:
tak to vypadá, že dupeguru dělá to co potřebuju

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.