abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 00:44 | Zajímavý článek

    Máirín Duffy a Brian Smith v článku pro Fedora Magazine ukazují použití LLM pro diagnostiku systému (Fedora Linuxu) přes Model Context Protocol od firmy Anthropic. I ukázkové výstupy v samotném článku obsahují AI vygenerované nesmysly, např. doporučení přeinstalovat balíček pomocí správce balíčků APT z Debianu místo DNF nativního na Fedoře.

    |🇵🇸 | Komentářů: 2
    včera 04:55 | Zajímavý software

    Projekt D7VK dospěl do verze 1.0. Jedná se o fork DXVK implementující překlad volání Direct3D 7 na Vulkan. DXVK zvládá Direct3D 8, 9, 10 a 11.

    Ladislav Hagara | Komentářů: 0
    12.12. 16:00 | Nová verze

    Byla vydána nová verze 2025.4 linuxové distribuce navržené pro digitální forenzní analýzu a penetrační testování Kali Linux (Wikipedie). Přehled novinek se seznamem nových nástrojů v oficiálním oznámení na blogu.

    Ladislav Hagara | Komentářů: 2
    12.12. 12:44 | IT novinky

    Národní úřad pro kybernetickou a informační bezpečnost (NÚKIB) zveřejnil Národní politiku koordinovaného zveřejňování zranitelností (pdf), jejímž cílem je nejen zvyšování bezpečnosti produktů informačních a komunikačních technologií (ICT), ale také ochrana objevitelů zranitelností před negativními právními dopady. Součástí je rovněž vytvoření „koordinátora pro účely CVD“, jímž je podle nového zákona o kybernetické … více »

    Ladislav Hagara | Komentářů: 11
    12.12. 04:33 | Nová verze

    Vývojáři KDE oznámili vydání balíku aplikací KDE Gear 25.12. Přehled novinek i s náhledy a videi v oficiálním oznámení.

    Ladislav Hagara | Komentářů: 0
    12.12. 03:55 | Nová verze

    Společnost System76 vydala Pop!_OS 24.04 LTS s desktopovým prostředím COSMIC. Videoukázky na YouTube.

    Ladislav Hagara | Komentářů: 0
    12.12. 03:11 | Nová verze

    Byla vydána verze 1.92.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

    Ladislav Hagara | Komentářů: 0
    12.12. 01:33 | Komunita

    Free Software Foundation zveřejnila ocenění Free Software Awards za rok 2024. Oceněni byli Andy Wingo, jeden ze správců GNU Guile, Alx Sa za příspěvky do Gimpu a Govdirectory jako společensky prospěšný projekt.

    |🇵🇸 | Komentářů: 5
    11.12. 18:55 | Nová verze

    Bylo vydáno Eclipse IDE 2025-12 aneb Eclipse 4.38. Představení novinek tohoto integrovaného vývojového prostředí také na YouTube.

    Ladislav Hagara | Komentářů: 0
    11.12. 17:44 | Nová verze

    U příležitosti oslav osmi let prací na debianím balíčku vyšlo GPXSee 15.6. Nová verze přináší především podporu pro geotagované MP4 soubory, včetně GoPro videí. Kdo nechce čekat, až nová verze dorazí do jeho distribuce, nalezne zdrojové kódy na GitHubu.

    Martin Tůma | Komentářů: 16
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (48%)
     (19%)
     (17%)
     (23%)
     (15%)
     (24%)
     (15%)
     (17%)
    Celkem 460 hlasů
     Komentářů: 19, poslední 11.12. 20:04
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

    10.9.2010 16:20 j3nda | skóre: 14 | ostrava/brno
    existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    Přečteno: 261×

    zdravim,

    chci se zeptat znalejsich, zda:
    - existuje nastroj na odhaleni souboru, ktere maji 100% anebo castecny napr 95% duplicitni obsah?

    jde mi o to, ze mam spoustu dat (asi 200GB) a chtel bych odhalit duplicitni soubory. nejedna se o 100% shodu. spis nejake vymezeni, napr +/- 20% treba s moznosti znazorneni, kde je tato shoda v souboru 100% a kde napr 80% (zacatek, stred, konec, ...)

    je mi jasne, ze si na to muzu napsat nastroj, ktery by fungoval podle mych predstav - ale mozna neco existuje a vy o podobnem nastroji vite. poradite?

    j3.
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

    Odpovědi

    Jakub Lucký avatar 10.9.2010 16:34 Jakub Lucký | skóre: 40 | Praha
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    no, takové utilitky existují... Na 100% shodu by stačil nějaký skriptík, ale:
    fdupes - identifies duplicate files within given directories
    findimagedupes - Finds visually similar or duplicate images
    perforate - Utilities to save disk space
    simhash - generate similarity hashes to find nearly duplicate files
    
    If you understand, things are just as they are; if you do not understand, things are just as they are.
    10.9.2010 16:58 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    dik. fdupes: funguje nejak podivne.

    kdyz jsem si zkusil do testdiru (ze ktereho by melo byt jasne, co je duplicita a co ne) dat .mp3

    tak vypsal, ze je tam ulozena duplicitne (*x=stejny soubor jako .mp3) - coz je spravne.
    3403976 bytes each:
    ./testdir.x/v.Mr. Oizo - Monday Massacre.mp3
    ./testdir.x/*x
    ale kdyz jsem nakonec "*x" pridal znaky "xxxxxxxxxxxxxxxx", cimz jsem vynutil castecnou shodu, tak ve vypise soubory nefigurovaly - i kdyz by mely.

    takze se v tom chvili budu vrtat...
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
    10.9.2010 17:03 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    jeste jsem nasel toto:
    http://freshmeat.net/projects/fdupe/

    ale taky to resi bud 100% anebo 0% (mezitim nic). viz
    soubory: .mp3 a *x

    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
    10.9.2010 19:03 Matlák
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    Ono sledovat "podobnost" dvou souborů libovolného typu je obecně nepříliš triviální problém. Je to velmi závislé na tom, co chce člověk sledovat - u obrázků například konkrétní tvary či barvy, u hudby/zvuků melodie a rytmy, to vše naprosto nezávisle na použitém bitrate/rozlišení apod.. takže standardní porovnávání pomocí kontrolních součtů je přitom k ničemu. Je podstatné co chcete porovnávat, v jakém rozsahu apod.. K porovnávání obrázků a zvuků je asi nejvhodnější nějaký druh spektrální analýzy...
    10.9.2010 19:14 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

    jedna se jen o hudebni soubory. takze myslenka spektralni analyzy je dobry smer.

    zkusim si procist to, co mi p. Kasprzak zaslal (mj. prikladam), cituji:

      Tak tohle je dost slozita problematika uz v pripade, kdy drzite dva soubory a jen chcete zjistit kde presne se prekryvaji. Neco k tomuto tematu je popsano treba tady:

    http://theses.cz/id/kjlbf0

    A to jak vybrat vhodne kandidaty abyste nemusel zkoumat vsechny dvojice souboru je taky kapitola sama pro sebe. V textovych souborech se to dela napriklad pomoci rozkouskovani a hledani techto kousku (clanek Sergeje Brina a dalsich "Copy detection mechanisms for digital documents" z roku 1995, napriklad).

    a nejak se rozhodnout, jak to budu resit.
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.