Portál AbcLinuxu, 30. října 2025 03:29

Dotaz: "jednoducha" deduplikace

8.12.2011 07:06 David
"jednoducha" deduplikace

Přečteno: 391×

Odpovědět | Admin

Ahojky, potrebuji se zbavit zdvojenych souboru v urcitem adresari. A to tak, aby ten pripadnej sw nekoukal jenom na presne zazvy. Jedna se o to, ze jsem mel slozku audio a ma pritulkyne taky. Oba jsme meli pres Sambu pristup k te sve. Postupem casu to ale dopadlo tak, ze oba mame cast obsahu stejnou. Proto jsem se rozhodl, ze tyto dve slozky sloucim do jedne a budeme tam mit pristup oba. Nicmene bych to potreboval necim protahnout, abych se zbavil duplicit. Kriterium pro vyhledani nemuze byt ale jen nazev souboru, protoze ty jsme si kazdy vytvorili podle sveho. Diky za doporuceni nejakyho softiku. David

Řešení dotazu:

Nástroje: Začni sledovat (0) ?

Odpovědi

8.12.2011 07:51 cronin | skóre: 49
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace

Ja som podobný problém riešil skriptom, ktorý už samozrejme nemám. ;-)

U mňa išlo o cca 80 tisíc favikon v jedom adresári, z ktorých bolo treba odstrániť duplicitné; unikátnych bolo nakoniec asi 21 tisíc.

Celé to bolo s kvadratickou zložitosťou, proste sa zobral jeden súbor a diff-ol sa so všetkými ostatnými. Jediná optimalizácia, ktorú som urobil, bolo rozdelenie súborov podľa veľkosti. I tak to bolo desne pomalé, ale keďže sa jednalo o jednorazovú záležitosť, nemalo zmysel to komplikovať optimalizáciami.

Pri audiu bude možno jednoduchšie urobiť deduplikáciu ručne, automatizovať iba identifikáciu duplicít. Ak duplikácie vznikli skopírovaním s toho istého zdroja, stačilo by ísť po menách súborov, ak je pravdepodobné premenovávanie, tak po ich veľkostiach.

8.12.2011 08:37 a1bert | skóre: 23
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace

ja bych zacal necim takovym:
find /adresar -type f -exec md5sum {} \;
a pak uz podle libosti, treba sort ... uniq -d

8.12.2011 08:40 pepazdepa
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace

uz to nekdo vymyslel - fdupes

8.12.2011 09:53 Kit
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace

Už jsem něco podobného řešil tak, že jsem si od každého souboru spočítal MD5 a seřadil. Soubory s duplicitním MD5 se pak dají vyhledat a smazat mnohem snáze, protože jsou pod sebou.

Založit nové vlákno • Nahoru

Tiskni Sdílej: