Portál AbcLinuxu, 5. května 2024 09:51


Dotaz: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

10.9.2010 16:20 j3nda | skóre: 14 | ostrava/brno
existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
Přečteno: 177×
Odpovědět | Admin

zdravim,

chci se zeptat znalejsich, zda:
- existuje nastroj na odhaleni souboru, ktere maji 100% anebo castecny napr 95% duplicitni obsah?

jde mi o to, ze mam spoustu dat (asi 200GB) a chtel bych odhalit duplicitni soubory. nejedna se o 100% shodu. spis nejake vymezeni, napr +/- 20% treba s moznosti znazorneni, kde je tato shoda v souboru 100% a kde napr 80% (zacatek, stred, konec, ...)

je mi jasne, ze si na to muzu napsat nastroj, ktery by fungoval podle mych predstav - ale mozna neco existuje a vy o podobnem nastroji vite. poradite?

j3.
___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

Jakub Lucký avatar 10.9.2010 16:34 Jakub Lucký | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
Odpovědět | | Sbalit | Link | Blokovat | Admin
no, takové utilitky existují... Na 100% shodu by stačil nějaký skriptík, ale:
fdupes - identifies duplicate files within given directories
findimagedupes - Finds visually similar or duplicate images
perforate - Utilities to save disk space
simhash - generate similarity hashes to find nearly duplicate files
If you understand, things are just as they are; if you do not understand, things are just as they are.
10.9.2010 16:58 j3nda | skóre: 14 | ostrava/brno
Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
dik. fdupes: funguje nejak podivne.

kdyz jsem si zkusil do testdiru (ze ktereho by melo byt jasne, co je duplicita a co ne) dat .mp3

tak vypsal, ze je tam ulozena duplicitne (*x=stejny soubor jako .mp3) - coz je spravne.
3403976 bytes each:
./testdir.x/v.Mr. Oizo - Monday Massacre.mp3
./testdir.x/*x
ale kdyz jsem nakonec "*x" pridal znaky "xxxxxxxxxxxxxxxx", cimz jsem vynutil castecnou shodu, tak ve vypise soubory nefigurovaly - i kdyz by mely.

takze se v tom chvili budu vrtat...
___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
10.9.2010 17:03 j3nda | skóre: 14 | ostrava/brno
Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
jeste jsem nasel toto:
http://freshmeat.net/projects/fdupe/

ale taky to resi bud 100% anebo 0% (mezitim nic). viz
soubory: .mp3 a *x

___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
10.9.2010 19:03 Matlák
Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
Ono sledovat "podobnost" dvou souborů libovolného typu je obecně nepříliš triviální problém. Je to velmi závislé na tom, co chce člověk sledovat - u obrázků například konkrétní tvary či barvy, u hudby/zvuků melodie a rytmy, to vše naprosto nezávisle na použitém bitrate/rozlišení apod.. takže standardní porovnávání pomocí kontrolních součtů je přitom k ničemu. Je podstatné co chcete porovnávat, v jakém rozsahu apod.. K porovnávání obrázků a zvuků je asi nejvhodnější nějaký druh spektrální analýzy...
10.9.2010 19:14 j3nda | skóre: 14 | ostrava/brno
Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

jedna se jen o hudebni soubory. takze myslenka spektralni analyzy je dobry smer.

zkusim si procist to, co mi p. Kasprzak zaslal (mj. prikladam), cituji:

  Tak tohle je dost slozita problematika uz v pripade, kdy drzite dva soubory a jen chcete zjistit kde presne se prekryvaji. Neco k tomuto tematu je popsano treba tady:

http://theses.cz/id/kjlbf0

A to jak vybrat vhodne kandidaty abyste nemusel zkoumat vsechny dvojice souboru je taky kapitola sama pro sebe. V textovych souborech se to dela napriklad pomoci rozkouskovani a hledani techto kousku (clanek Sergeje Brina a dalsich "Copy detection mechanisms for digital documents" z roku 1995, napriklad).

a nejak se rozhodnout, jak to budu resit.
___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.