abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 15:44 | Komunita

    Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

    … více »
    Ladislav Hagara | Komentářů: 0
    dnes 15:22 | IT novinky

    Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

    Ladislav Hagara | Komentářů: 1
    včera 17:11 | IT novinky

    Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

    Ladislav Hagara | Komentářů: 17
    včera 15:11 | IT novinky

    Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

    Ladislav Hagara | Komentářů: 2
    včera 14:11 | IT novinky

    V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.

    Ladislav Hagara | Komentářů: 0
    včera 00:33 | Nová verze

    Firma Proxmox vydala novou serverovou distribuci Datacenter Manager ve verzi 1.0 (poznámky k vydání). Podobně jako Virtual Environment, Mail Gateway či Backup Server je založená na Debianu, k němuž přidává integraci ZFS, webové administrační rozhraní a další. Datacenter Manager je určený ke správě instalací právě ostatních distribucí Proxmox.

    |🇵🇸 | Komentářů: 8
    4.12. 23:44 | Nová verze

    Byla vydána nová verze 2.4.66 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 5 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    4.12. 14:00 | IT novinky

    Programovací jazyk JavaScript (Wikipedie) dnes slaví 30 let od svého oficiálního představení 4. prosince 1995.

    Ladislav Hagara | Komentářů: 0
    4.12. 04:22 | Bezpečnostní upozornění

    Byly zveřejněny informace o kritické zranitelnosti CVE-2025-55182 s CVSS 10.0 v React Server Components. Zranitelnost je opravena v Reactu 19.0.1, 19.1.2 a 19.2.1.

    Ladislav Hagara | Komentářů: 3
    4.12. 02:44 | Komunita

    Bylo rozhodnuto, že nejnovější Linux 6.18 je jádrem s prodlouženou upstream podporou (LTS). Ta je aktuálně plánována do prosince 2027. LTS jader je aktuálně šest: 5.10, 5.15, 6.1, 6.6, 6.12 a 6.18.

    Ladislav Hagara | Komentářů: 0
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (47%)
     (19%)
     (18%)
     (22%)
     (15%)
     (24%)
     (16%)
     (18%)
    Celkem 434 hlasů
     Komentářů: 18, poslední 2.12. 18:34
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

    10.9.2010 16:20 j3nda | skóre: 14 | ostrava/brno
    existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    Přečteno: 260×

    zdravim,

    chci se zeptat znalejsich, zda:
    - existuje nastroj na odhaleni souboru, ktere maji 100% anebo castecny napr 95% duplicitni obsah?

    jde mi o to, ze mam spoustu dat (asi 200GB) a chtel bych odhalit duplicitni soubory. nejedna se o 100% shodu. spis nejake vymezeni, napr +/- 20% treba s moznosti znazorneni, kde je tato shoda v souboru 100% a kde napr 80% (zacatek, stred, konec, ...)

    je mi jasne, ze si na to muzu napsat nastroj, ktery by fungoval podle mych predstav - ale mozna neco existuje a vy o podobnem nastroji vite. poradite?

    j3.
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

    Odpovědi

    Jakub Lucký avatar 10.9.2010 16:34 Jakub Lucký | skóre: 40 | Praha
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    no, takové utilitky existují... Na 100% shodu by stačil nějaký skriptík, ale:
    fdupes - identifies duplicate files within given directories
    findimagedupes - Finds visually similar or duplicate images
    perforate - Utilities to save disk space
    simhash - generate similarity hashes to find nearly duplicate files
    
    If you understand, things are just as they are; if you do not understand, things are just as they are.
    10.9.2010 16:58 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    dik. fdupes: funguje nejak podivne.

    kdyz jsem si zkusil do testdiru (ze ktereho by melo byt jasne, co je duplicita a co ne) dat .mp3

    tak vypsal, ze je tam ulozena duplicitne (*x=stejny soubor jako .mp3) - coz je spravne.
    3403976 bytes each:
    ./testdir.x/v.Mr. Oizo - Monday Massacre.mp3
    ./testdir.x/*x
    ale kdyz jsem nakonec "*x" pridal znaky "xxxxxxxxxxxxxxxx", cimz jsem vynutil castecnou shodu, tak ve vypise soubory nefigurovaly - i kdyz by mely.

    takze se v tom chvili budu vrtat...
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
    10.9.2010 17:03 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    jeste jsem nasel toto:
    http://freshmeat.net/projects/fdupe/

    ale taky to resi bud 100% anebo 0% (mezitim nic). viz
    soubory: .mp3 a *x

    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___
    10.9.2010 19:03 Matlák
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?
    Ono sledovat "podobnost" dvou souborů libovolného typu je obecně nepříliš triviální problém. Je to velmi závislé na tom, co chce člověk sledovat - u obrázků například konkrétní tvary či barvy, u hudby/zvuků melodie a rytmy, to vše naprosto nezávisle na použitém bitrate/rozlišení apod.. takže standardní porovnávání pomocí kontrolních součtů je přitom k ničemu. Je podstatné co chcete porovnávat, v jakém rozsahu apod.. K porovnávání obrázků a zvuků je asi nejvhodnější nějaký druh spektrální analýzy...
    10.9.2010 19:14 j3nda | skóre: 14 | ostrava/brno
    Rozbalit Rozbalit vše Re: existuje nastroj pro zjisteni duplicitniho obsahu v souborech?

    jedna se jen o hudebni soubory. takze myslenka spektralni analyzy je dobry smer.

    zkusim si procist to, co mi p. Kasprzak zaslal (mj. prikladam), cituji:

      Tak tohle je dost slozita problematika uz v pripade, kdy drzite dva soubory a jen chcete zjistit kde presne se prekryvaji. Neco k tomuto tematu je popsano treba tady:

    http://theses.cz/id/kjlbf0

    A to jak vybrat vhodne kandidaty abyste nemusel zkoumat vsechny dvojice souboru je taky kapitola sama pro sebe. V textovych souborech se to dela napriklad pomoci rozkouskovani a hledani techto kousku (clanek Sergeje Brina a dalsich "Copy detection mechanisms for digital documents" z roku 1995, napriklad).

    a nejak se rozhodnout, jak to budu resit.
    ___---==~[ uxunilcba | baclniuxu ]~==---__sevrer_pnly_liunx-lkie_hcaricku__/libGDX-rulez-the-W0R7D!___

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.