abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

    dnes 11:00 | IT novinky

    Byla představena nová Arduino deska Arduino UNO R4 s 32bitovým MCU RA4M1 (Arm Cortex-M4). Desku lze zatím získat pouze v rámci early access programu.

    Ladislav Hagara | Komentářů: 0
    včera 18:33 | Nová verze

    Operační systém MidnightBSD, fork FreeBSD optimalizovaný pro desktop s prostředím Xfce, byl vydán ve verzi 3.0. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 2
    včera 18:22 | IT novinky

    Na GOG.com běží Spring Sale. Při té příležitosti lze získat zdarma počítačovou hru Neurodeck: Psychological Deckbuilder (ProtonDB).

    Ladislav Hagara | Komentářů: 0
    25.3. 12:33 | Komunita

    Alex Ellis upozornil 15. března, že firma Docker se chystala zrušit bezplatný hosting open-source projektů na Docker Hubu. Po vlně odporu se představitelé firmy omluvili a posléze byl původní záměr odvolán.

    Fluttershy, yay! | Komentářů: 29
    25.3. 07:00 | IT novinky

    Ve věku 94 let zemřel Gordon Moore, mj. spoluzakladatel společnosti Intel a autor Moorova zákona.

    Ladislav Hagara | Komentářů: 1
    24.3. 17:11 | Nová verze

    Mercurial (Wikipedie), software pro SCM (Source Code Management), byl vydán ve verzi 6.4. Přehled novinek v poznámkách k vydání. Ve dnech 5. až 7. dubna proběhne konference Mercurial Paris.

    Ladislav Hagara | Komentářů: 0
    24.3. 11:55 | IT novinky

    Byly rozdány Ceny Velkého bratra (Big Brother Awards) za rok 2022 pro největší slídily pořádané nevládní organizací Iuridicum Remedium. Dlouhodobý slídil: Microsoft. Firemní slídil: Seznam. Úřední slídil: Nejvyšší správní soud. Výrok Velkého bratra: Marian Jurečka. Pozitivní cena: NoLog.

    Ladislav Hagara | Komentářů: 11
    24.3. 11:11 | Zajímavý projekt

    Byla představena online vzdělávací platforma Ada Computer Science pro učitele, studenty a kohokoli, kdo se zajímá o informatiku. Stojí za ní Raspberry Pi Foundation a Univerzita v Cambridgi.

    Ladislav Hagara | Komentářů: 0
    24.3. 09:11 | Bezpečnostní upozornění

    GitHub má nový RSA SSH klíč. Předchozí soukromý klíč byl krátce vystaven na GitHubu.

    Ladislav Hagara | Komentářů: 0
    24.3. 08:55 | IT novinky

    Společnost Framework Computer představila (YouTube) nové modulární notebooky: Laptop 13 s Intel Core nebo AMD Ryzen a Laptop 16 (YouTube).

    Ladislav Hagara | Komentářů: 0
    Používáte WSL (Windows Subsystem for Linux)?
     (74%)
     (12%)
     (4%)
     (10%)
    Celkem 330 hlasů
     Komentářů: 4, poslední 24.3. 06:42
    Rozcestník


    Dotaz: "jednoducha" deduplikace

    8.12.2011 07:06 David
    "jednoducha" deduplikace
    Přečteno: 361×
    Ahojky, potrebuji se zbavit zdvojenych souboru v urcitem adresari. A to tak, aby ten pripadnej sw nekoukal jenom na presne zazvy. Jedna se o to, ze jsem mel slozku audio a ma pritulkyne taky. Oba jsme meli pres Sambu pristup k te sve. Postupem casu to ale dopadlo tak, ze oba mame cast obsahu stejnou. Proto jsem se rozhodl, ze tyto dve slozky sloucim do jedne a budeme tam mit pristup oba. Nicmene bych to potreboval necim protahnout, abych se zbavil duplicit. Kriterium pro vyhledani nemuze byt ale jen nazev souboru, protoze ty jsme si kazdy vytvorili podle sveho. Diky za doporuceni nejakyho softiku. David

    Řešení dotazu:


    Odpovědi

    8.12.2011 07:51 cronin | skóre: 49
    Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
    Ja som podobný problém riešil skriptom, ktorý už samozrejme nemám. ;-) U mňa išlo o cca 80 tisíc favikon v jedom adresári, z ktorých bolo treba odstrániť duplicitné; unikátnych bolo nakoniec asi 21 tisíc.

    Celé to bolo s kvadratickou zložitosťou, proste sa zobral jeden súbor a diff-ol sa so všetkými ostatnými. Jediná optimalizácia, ktorú som urobil, bolo rozdelenie súborov podľa veľkosti. I tak to bolo desne pomalé, ale keďže sa jednalo o jednorazovú záležitosť, nemalo zmysel to komplikovať optimalizáciami.

    Pri audiu bude možno jednoduchšie urobiť deduplikáciu ručne, automatizovať iba identifikáciu duplicít. Ak duplikácie vznikli skopírovaním s toho istého zdroja, stačilo by ísť po menách súborov, ak je pravdepodobné premenovávanie, tak po ich veľkostiach.
    8.12.2011 08:37 a1bert | skóre: 23
    Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
    ja bych zacal necim takovym:
    find /adresar -type f -exec md5sum {} \;
    a pak uz podle libosti, treba sort ... uniq -d
    8.12.2011 08:40 pepazdepa
    Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
    uz to nekdo vymyslel - fdupes
    8.12.2011 09:53 Kit
    Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
    Už jsem něco podobného řešil tak, že jsem si od každého souboru spočítal MD5 a seřadil. Soubory s duplicitním MD5 se pak dají vyhledat a smazat mnohem snáze, protože jsou pod sebou.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.