abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 02:20 | Zajímavý článek

David Revoy, autor open source webového komiksu Pepper&Carrot nebo portrétu GNU/Linuxu, upozorňuje na svém blogu, že nový Inkscape 0.92 rozbíjí dokumenty vytvořené v předchozích verzích Inkscape. Problém by měl být vyřešen v Inkscape 0.92.2 [reddit].

Ladislav Hagara | Komentářů: 0
dnes 02:02 | Komunita

Øyvind Kolås, hlavní vývojář grafických knihoven GEGL a babl, které využívá grafický program GIMP, žádá o podporu na Patreonu. Díky ní bude moci pracovat na vývoji na plný úvazek. Milník 1000 $, který by stačil na holé přežití, se již téměř podařilo vybrat, dalším cílem je dosažení 2500 $, které mu umožní běžně fungovat ve společnosti.

xkomczax | Komentářů: 12
včera 23:54 | Pozvánky

DevConf.cz 2017, již devátý ročník jedné z největších akcí zaměřených na Linux a open source ve střední Evropě, proběhne od pátku 27. ledna do neděle 29. ledna v prostorách Fakulty informačních technologií Vysokého učení technického v Brně. Na programu je celá řada zajímavých přednášek a workshopů. Letos je povinná registrace.

Ladislav Hagara | Komentářů: 0
včera 22:11 | Nová verze

Byla vydána verze 1.0.0 emulátoru terminálu Terminology postaveného nad EFL (Enlightenment Foundation Libraries). Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
20.1. 17:00 | Nová verze

Byl vydán Docker 1.13. Přehled novinek na YouTube a v poznámkách k vydání na GitHubu. Docker umožňuje běh aplikací v softwarových kontejnerech (Wikipedia).

Ladislav Hagara | Komentářů: 4
20.1. 15:51 | Komunita

Mozilla.cz informuje, že nástroje pro webové vývojáře se možná oddělí od Firefoxu a stanou doplňkem. Nástroje pro webové vývojáře prošly velkým přepisem a tým, který se stará o jejich vývoj, by uvítal možnost jejich častějších aktualizacích nezávisle na vydávání nových verzí Firefoxu.

Ladislav Hagara | Komentářů: 10
20.1. 07:00 | Humor

Čtenářům AbcLinuxu vše nejlepší k dnešnímu Dni zvýšení povědomí o tučňácích (Penguin Awareness Day).

Ladislav Hagara | Komentářů: 0
20.1. 06:00 | Komunita

Bylo spuštěno hlasování o přednáškách a workshopech pro letošní InstallFest, jenž proběhne o víkendu 4. a 5. března v Praze. Současně byla oznámena změna místa. InstallFest se letos vrací zpět na Karlovo náměstí do budovy E.

Ladislav Hagara | Komentářů: 0
20.1. 02:48 | Komunita

Greg Kroah-Hartman potvrdil, že Linux 4.9 je jádrem s prodlouženou upstream podporou (LTS, Long Term Support). Podpora je plánována do ledna 2019. Aktuální jádra s prodlouženou podporou jsou tedy 3.2, 3.4, 3.10, 3.12, 3.16, 3.18, 4.1, 4.4 a 4.9.

Ladislav Hagara | Komentářů: 0
20.1. 00:11 | Zajímavý článek

Výrobce síťových prvků, společnost Netgear, spustila nový program, který slibuje vývojářům, expertům, ale i běžným uživatelům vyplacení finanční odměny za nalezení bezpečnostních chyby v jejich produktech. Za nalezení zranitelnosti v hardware, API nebo mobilní aplikaci nabízí odměnu od 150 do 15 tisíc dolarů (dle závažnosti).

Michal Makovec | Komentářů: 0
Jak se stavíte k trendu ztenčování přenosných zařízení (smartphony, notebooky)?
 (10%)
 (2%)
 (74%)
 (3%)
 (10%)
Celkem 360 hlasů
 Komentářů: 25, poslední včera 13:34
Rozcestník
Reklama

Dotaz: "jednoducha" deduplikace

8.12.2011 07:06 David
"jednoducha" deduplikace
Přečteno: 343×
Ahojky, potrebuji se zbavit zdvojenych souboru v urcitem adresari. A to tak, aby ten pripadnej sw nekoukal jenom na presne zazvy. Jedna se o to, ze jsem mel slozku audio a ma pritulkyne taky. Oba jsme meli pres Sambu pristup k te sve. Postupem casu to ale dopadlo tak, ze oba mame cast obsahu stejnou. Proto jsem se rozhodl, ze tyto dve slozky sloucim do jedne a budeme tam mit pristup oba. Nicmene bych to potreboval necim protahnout, abych se zbavil duplicit. Kriterium pro vyhledani nemuze byt ale jen nazev souboru, protoze ty jsme si kazdy vytvorili podle sveho. Diky za doporuceni nejakyho softiku. David

Řešení dotazu:


Odpovědi

8.12.2011 07:51 cronin | skóre: 48
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
Ja som podobný problém riešil skriptom, ktorý už samozrejme nemám. ;-) U mňa išlo o cca 80 tisíc favikon v jedom adresári, z ktorých bolo treba odstrániť duplicitné; unikátnych bolo nakoniec asi 21 tisíc.

Celé to bolo s kvadratickou zložitosťou, proste sa zobral jeden súbor a diff-ol sa so všetkými ostatnými. Jediná optimalizácia, ktorú som urobil, bolo rozdelenie súborov podľa veľkosti. I tak to bolo desne pomalé, ale keďže sa jednalo o jednorazovú záležitosť, nemalo zmysel to komplikovať optimalizáciami.

Pri audiu bude možno jednoduchšie urobiť deduplikáciu ručne, automatizovať iba identifikáciu duplicít. Ak duplikácie vznikli skopírovaním s toho istého zdroja, stačilo by ísť po menách súborov, ak je pravdepodobné premenovávanie, tak po ich veľkostiach.
8.12.2011 08:37 a1bert | skóre: 20
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
ja bych zacal necim takovym:
find /adresar -type f -exec md5sum {} \;
a pak uz podle libosti, treba sort ... uniq -d
8.12.2011 08:40 pepazdepa
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
uz to nekdo vymyslel - fdupes
8.12.2011 09:53 Kit
Rozbalit Rozbalit vše Re: "jednoducha" deduplikace
Už jsem něco podobného řešil tak, že jsem si od každého souboru spočítal MD5 a seřadil. Soubory s duplicitním MD5 se pak dají vyhledat a smazat mnohem snáze, protože jsou pod sebou.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.