Portál AbcLinuxu, 14. května 2025 03:01
zdravim,
chci se zeptat znalejsich, zda:
- existuje nastroj na odhaleni souboru, ktere maji 100% anebo castecny napr 95% duplicitni obsah?
jde mi o to, ze mam spoustu dat (asi 200GB) a chtel bych odhalit duplicitni soubory. nejedna se o 100% shodu. spis nejake vymezeni, napr +/- 20% treba s moznosti znazorneni, kde je tato shoda v souboru 100% a kde napr 80% (zacatek, stred, konec, ...)
je mi jasne, ze si na to muzu napsat nastroj, ktery by fungoval podle mych predstav - ale mozna neco existuje a vy o podobnem nastroji vite. poradite?
j3.fdupes - identifies duplicate files within given directories findimagedupes - Finds visually similar or duplicate images perforate - Utilities to save disk space simhash - generate similarity hashes to find nearly duplicate files
3403976 bytes each: ./testdir.x/v.Mr. Oizo - Monday Massacre.mp3 ./testdir.x/*xale kdyz jsem nakonec "*x" pridal znaky "xxxxxxxxxxxxxxxx", cimz jsem vynutil castecnou shodu, tak ve vypise soubory nefigurovaly - i kdyz by mely. takze se v tom chvili budu vrtat...
ale taky to resi bud 100% anebo 0% (mezitim nic). viz
soubory: .mp3 a *x
jedna se jen o hudebni soubory. takze myslenka spektralni analyzy je dobry smer.
zkusim si procist to, co mi p. Kasprzak zaslal (mj. prikladam), cituji:
a nejak se rozhodnout, jak to budu resit.Tak tohle je dost slozita problematika uz v pripade, kdy drzite dva soubory a jen chcete zjistit kde presne se prekryvaji. Neco k tomuto tematu je popsano treba tady:
http://theses.cz/id/kjlbf0
A to jak vybrat vhodne kandidaty abyste nemusel zkoumat vsechny dvojice souboru je taky kapitola sama pro sebe. V textovych souborech se to dela napriklad pomoci rozkouskovani a hledani techto kousku (clanek Sergeje Brina a dalsich "Copy detection mechanisms for digital documents" z roku 1995, napriklad).
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.