abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 10:11 | IT novinky

    V pořadí šestou knihou autora Martina Malého, která vychází v Edici CZ.NIC, správce české národní domény, je titul Kity, bity, neurony. Kniha s podtitulem Moderní technologie pro hobby elektroniku přináší ucelený pohled na svět současných technologií a jejich praktické využití v domácích elektronických projektech. Tento knižní průvodce je ideální pro každého, kdo se chce podívat na současné trendy v oblasti hobby elektroniky, od

    … více »
    Ladislav Hagara | Komentářů: 0
    dnes 03:11 | Komunita

    Linux Foundation zveřejnila Výroční zprávu za rok 2025 (pdf). Příjmy Linux Foundation byly 311 miliónů dolarů. Výdaje 285 miliónů dolarů. Na podporu linuxového jádra (Linux Kernel Project) šlo 8,4 miliónu dolarů. Linux Foundation podporuje téměř 1 500 open source projektů.

    Ladislav Hagara | Komentářů: 0
    dnes 02:11 | Zajímavý článek

    Jean-Baptiste Mardelle se v příspěvku na blogu rozepsal o novinkám v nejnovější verzi 25.12.0 editoru videa Kdenlive (Wikipedie). Ke stažení také na Flathubu.

    Ladislav Hagara | Komentářů: 0
    dnes 02:00 | Nová verze

    OpenZFS (Wikipedie), tj. implementace souborového systému ZFS pro Linux a FreeBSD, byl vydán ve verzi 2.4.0.

    Ladislav Hagara | Komentářů: 0
    dnes 01:00 | IT novinky

    Kriminalisté z NCTEKK společně s českými i zahraničními kolegy objasnili mimořádně rozsáhlou trestnou činnost z oblasti kybernetické kriminality. V rámci operací OCTOPUS a CONNECT ukončili činnost čtyř call center na Ukrajině. V prvním případě se jednalo o podvodné investice, v případě druhém o podvodné telefonáty, při kterých se zločinci vydávali za policisty a pod legendou napadeného bankovního účtu okrádali své oběti o vysoké finanční částky.

    Ladislav Hagara | Komentářů: 4
    včera 14:44 | IT novinky

    Na lepší pokrytí mobilním signálem a dostupnější mobilní internet se mohou těšit cestující v Pendolinech, railjetech a InterPanterech Českých drah. Konsorcium firem ČD - Telematika a.s. a Kontron Transportation s.r.o. dokončilo instalaci 5G opakovačů mobilního signálu do jednotek Pendolino a InterPanter. Tento krok navazuje na zavedení této technologie v jednotkách Railjet z letošního jara.

    Ladislav Hagara | Komentářů: 5
    včera 12:22 | Bezpečnostní upozornění

    Rozšíření webového prohlížeče Urban VPN Proxy a další rozšíření od stejného vydavatele (např. 1ClickVPN Proxy, Urban Browser Guard či Urban Ad Blocker) od července 2025 skrytě zachytávají a odesílají celé konverzace uživatelů s AI nástroji (včetně ChatGPT, Claude, Gemini, Copilot aj.), a to nezávisle na tom, zda je VPN aktivní. Sběr probíhá bez možnosti jej uživatelsky vypnout a zahrnuje plný obsah dotazů a odpovědí, metadata relací i

    … více »
    Ladislav Hagara | Komentářů: 5
    včera 05:22 | Zajímavý software

    QStudio, tj. nástroj pro práci s SQL podporující více než 30 databází (MySQL, PostgreSQL, DuckDB, QuestDB, kdb+, …), se stal s vydáním verze 5.0 open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí Apache 2.0.

    Ladislav Hagara | Komentářů: 6
    včera 04:55 | Nová verze

    Byla vydána nová verze 259 správce systému a služeb systemd (Wikipedie, GitHub).

    Ladislav Hagara | Komentářů: 0
    včera 02:55 | Zajímavý článek

    Cloudflare Radar poskytuje aktuální informace o globálním internetovém provozu, útocích nebo trendech. Publikován byl celkový přehled za rok 2025. Globální internetový provoz vzrostl v roce 2025 o 19 %.

    Ladislav Hagara | Komentářů: 0
    Kdo vám letos nadělí dárek?
     (13%)
     (0%)
     (0%)
     (0%)
     (13%)
     (0%)
     (25%)
     (25%)
     (25%)
    Celkem 8 hlasů
     Komentářů: 10, poslední dnes 12:54
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

    10.9.2010 16:20 j3nda | skóre: 14 | ostrava/brno
    existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    Přečteno: 261×

    zdravim,

    chci se zeptat znalejsich, zda:
    - existuje nastroj na odhaleni souboru, ktere maji 100% anebo castecny napr 95% duplicitni obsah?

    jde mi o to, ze mam spoustu dat (asi 200GB) a chtel bych odhalit duplicitni soubory. nejedna se o 100% shodu. spis nejake vymezeni, napr +/- 20% treba s moznosti znazorneni, kde je tato shoda v souboru 100% a kde napr 80% (zacatek, stred, konec, ...)

    je mi jasne, ze si na to muzu napsat nastroj, ktery by fungoval podle mych predstav - ale mozna neco existuje a vy o podobnem nastroji vite. poradite?

    j3.
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

    Odpovědi

    Jakub Lucký avatar 10.9.2010 16:34 Jakub Lucký | skóre: 40 | Praha
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    no, takové utilitky existují... Na 100% shodu by stačil nějaký skriptík, ale:
    fdupes - identifies duplicate files within given directories
    findimagedupes - Finds visually similar or duplicate images
    perforate - Utilities to save disk space
    simhash - generate similarity hashes to find nearly duplicate files
    
    If you understand, things are just as they are; if you do not understand, things are just as they are.
    10.9.2010 16:58 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    dik. fdupes: funguje nejak podivne.

    kdyz jsem si zkusil do testdiru (ze ktereho by melo byt jasne, co je duplicita a co ne) dat .mp3

    tak vypsal, ze je tam ulozena duplicitne (*x=stejny soubor jako .mp3) - coz je spravne.
    3403976 bytes each:
    ./testdir.x/v.Mr. Oizo - Monday Massacre.mp3
    ./testdir.x/*x
    ale kdyz jsem nakonec "*x" pridal znaky "xxxxxxxxxxxxxxxx", cimz jsem vynutil castecnou shodu, tak ve vypise soubory nefigurovaly - i kdyz by mely.

    takze se v tom chvili budu vrtat...
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
    10.9.2010 17:03 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    jeste jsem nasel toto:
    http://freshmeat.net/projects/fdupe/

    ale taky to resi bud 100% anebo 0% (mezitim nic). viz
    soubory: .mp3 a *x

    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
    10.9.2010 19:03 Matlák
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    Ono sledovat "podobnost" dvou souborů libovolného typu je obecně nepříliš triviální problém. Je to velmi závislé na tom, co chce člověk sledovat - u obrázků například konkrétní tvary či barvy, u hudby/zvuků melodie a rytmy, to vše naprosto nezávisle na použitém bitrate/rozlišení apod.. takže standardní porovnávání pomocí kontrolních součtů je přitom k ničemu. Je podstatné co chcete porovnávat, v jakém rozsahu apod.. K porovnávání obrázků a zvuků je asi nejvhodnější nějaký druh spektrální analýzy...
    10.9.2010 19:14 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

    jedna se jen o hudebni soubory. takze myslenka spektralni analyzy je dobry smer.

    zkusim si procist to, co mi p. Kasprzak zaslal (mj. prikladam), cituji:

      Tak tohle je dost slozita problematika uz v pripade, kdy drzite dva soubory a jen chcete zjistit kde presne se prekryvaji. Neco k tomuto tematu je popsano treba tady:

    http://theses.cz/id/kjlbf0

    A to jak vybrat vhodne kandidaty abyste nemusel zkoumat vsechny dvojice souboru je taky kapitola sama pro sebe. V textovych souborech se to dela napriklad pomoci rozkouskovani a hledani techto kousku (clanek Sergeje Brina a dalsich "Copy detection mechanisms for digital documents" z roku 1995, napriklad).

    a nejak se rozhodnout, jak to budu resit.
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.