abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 15:00 | Zajímavý software

Společnost Valve vydala novou beta verzi SteamVR. Z novinek lze zdůraznit oficiální podporu Linuxu. Další informace o podpoře této platformy pro vývoj virtuální reality v Linuxu v diskusním fóru. Hlášení chyb na GitHubu.

Ladislav Hagara | Komentářů: 0
dnes 06:00 | Nová verze

Po necelém roce od vydání verze 0.67 byla vydána verze 0.68 populárního telnet a ssh klienta PuTTY. Podrobnosti v přehledu změn. Řešeny jsou také bezpečnostní chyby.

Ladislav Hagara | Komentářů: 0
včera 21:32 | Nasazení Linuxu

Canonical představuje nejnovější verzi chytré helmy DAQRI s Ubuntu pro rozšířenou realitu. K vidění bude příští týden v Barceloně na veletrhu Mobile World Congress 2017.

Ladislav Hagara | Komentářů: 0
včera 21:31 | Pozvánky

Pro zájemce o hlubší znalosti fungování operačních systémů připravila MFF UK nový předmět Pokročilé operační systémy, v rámci něhož se vystřídají přednášející nejen z řad pracovníků fakulty, ale dorazí také odborníci ze společností AVAST, Oracle, Red Hat a SUSE. Tento předmět volně navazuje na kurz Operační systémy ze zimního semestru, ale pokud máte praktické zkušenosti odjinud (například z přispívání do jádra Linuxu) a chcete si

… více »
Martin Děcký | Komentářů: 6
včera 21:30 | Pozvánky

Czech JBoss User Group Vás srdečně zve na setkání JBUG v Brně, které se koná ve středu 1. března 2017 v prostorách Fakulty Informatiky Masarykovy Univerzity v místnosti A318 od 18:00. Přednáší Tomáš Remeš a Matěj Novotný na téma CDI 2.0 - New and Noteworthy. Více informací na Facebooku a na Twitteru #jbugcz.

mjedlick | Komentářů: 0
20.2. 23:45 | Zajímavý software

Na blogu Qt bylo představeno Qt 3D Studio. Jedná se o produkt dosud známý pod názvem NVIDIA DRIVE™ Design Studio. NVIDIA jej věnovala Qt. Jedná se o několik set tisíc řádků zdrojového kódu. Qt 3D Studio bude stejně jako Qt k dispozici jak pod open source, tak pod komerční licencí. Ukázka práce s Qt 3D Studiem na YouTube.

Ladislav Hagara | Komentářů: 10
20.2. 17:50 | Komunita

Nadace The Document Foundation (TDF) zastřešující vývoj svobodného kancelářského balíku LibreOffice slaví 5 let od svého oficiálního vzniku. Nadace byla představena 28. září 2010. Formálně byla založena ale až 17. února 2012.

Ladislav Hagara | Komentářů: 0
20.2. 12:50 | Komunita

Mozilla.cz informuje, že dosud experimentální funkce Page Shot z programu Firefox Test Pilot (zprávička) se stane součástí Firefoxu. Page Shot je nástroj pro vytváření snímků webových stránek. Umí výběr oblasti, prvku stránky (např. odstavce), nebo uložení snímku celé stránky. Snímky lze ukládat na disk nebo nahrávat na server Mozilly. Nedávno bylo oznámeno, že se součástí Firefoxu stane Activity Stream.

Ladislav Hagara | Komentářů: 35
20.2. 04:10 | Nová verze

Po 10 týdnech vývoje od vydání Linuxu 4.9 (zprávička) oznámil Linus Torvalds, mj. již 20 let žijící v USA, vydání Linuxu 4.10 (LKML). Přehled nových vlastností a vylepšení například na Kernel Newbies a v Jaderných novinách (1, 2 a 3). Kódové jméno Linuxu 4.10 je Fearless Coyote.

Ladislav Hagara | Komentářů: 28
19.2. 15:55 | Zajímavý projekt

Vyzkoušet si příkazy a vyřešit několik úkolů lze na stránkách Commandline Challenge (CMD Challenge). Úkoly lze řešit různými způsoby, důležitý je výsledek. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.

Ladislav Hagara | Komentářů: 19
Jak se stavíte k trendu ztenčování přenosných zařízení (smartphony, notebooky)?
 (14%)
 (2%)
 (71%)
 (4%)
 (10%)
Celkem 681 hlasů
 Komentářů: 65, poslední dnes 16:18
Rozcestník

Dotaz: Duplicitni soubory

19.6.2010 12:23 martin
Duplicitni soubory
Přečteno: 858×
Zdravím,
Zrovna včera jsem se rozhodl že si už konečně udělám pořádek ve fotkách.
Mám milion adresářů s fotkama některé samozřejmě i 3x.
Celkem to dělá asi něco kolem 5k kousků.
Pustil jsem na to jeden nejmenovaný komerční soft ale po 3 hod jsem už byl docela grogy.
Výstupní adresář obsahoval něco kolem 2k fotek a ještě hafo zbývalo.
Přečetl jsem tu ted nějaký příspěvek na téma
Nejlepší hashovací fce a napsal toto


#encoding: utf-8
'''Programek na rychlou detekci duplicitnich souboru v adresari
'''
import os, hashlib

class DupFinder(object):
    def __init__(self, adresar):
        self.database = {}
        self.__get_all_files(adresar)
        print len(self.database)
        del(self.database)
        
    def __get_all_files(self, adresar):
        dupe = 0
        for root, adresar, soubory in os.walk(adresar):
            for soubor in soubory:
                with open(os.path.join(root, soubor), 'rb') as f:
                    hashfile = hashlib.sha224()
                    hashfile.update(f.read())
                    newhash = hashfile.hexdigest()
                    if newhash not in self.database:
                        self.database[newhash] = os.path.join(root, soubor)
                    else:
                        dupe += 1
        print ('NR Dupes in directory: %d' % dupe)
        
if __name__ == '__main__':
    a = DupFinder('/home/martin/Fotky')

Celkový čas něco kolem 10min[mám tam dopsaný přesun atd].
Opravdu se tomu dá věřit že to najde duplikáty na 100% ?.
Díky za jiné návrhy, třeba třídění podle spektrální analýzy atd :).

Odpovědi

19.6.2010 12:37 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Duplicitni soubory
Pokud použijete hash z binárních dat souboru, duplicitní soubory (tj. ty, které jsou na bit stejné) tím určitě odhalíte, s nízkou pravděpodobností se může stát, že jako shodné budou označeny dva různé soubory – ale myslím, že není problém ty soubory se stejným hashem porovnat bit po bitu.
19.6.2010 12:50 martin
Rozbalit Rozbalit vše Re: Duplicitni soubory
Díky to jsem potřeboval vědět. Jen mě zajímá jestli i tato malá pravděpodobnost se dá
obejít jiným druhem použitého hashe třeba sha1, sha512, md5.
BTW a nebylo by to prolomení klíče kdyby 2 rozdílné soubory měly
stejný hash ?
19.6.2010 14:06 Filip Jirsák | skóre: 66 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Duplicitni soubory
Oebjít se to nedá, ta pravděpodobnost bude vždy nenulová. Hashovací funkce vždy přiřazuje nekonečně mnoho různých vstupů na konečně mnoho výstupů, takže vždy existují výstupy, kterým odpovídá nekonečně mnoho vstupů.

Kdyby dva různé soubory měly stejný hash, jde o nalezení kolize – pro hashovací funkci to není žádný problém, ty s přítomností kolizí počítají (jak jsem psal v předchozí větě), jejich síla spočívá v tom, že ke známému hashi nedokážeme rychle najít nějaký vstupní dokument, případně že nejde snadno vytvořit dva různé vstupy, které mají stejný hash.

Jinak pro hledání duplicitních souborů mi kryptografické hashovací funkce připadají jako trochu silný nástroj, podle mne by stačil třeba obyčejný CRC, který spočítáte rychleji, a u stejných otisků pak stejně soubory porovnáte bit po bitu.
oroborus avatar 19.6.2010 13:48 oroborus | skóre: 20 | blog: Bulanci
Rozbalit Rozbalit vše Re: Duplicitni soubory
BTW Pred par tyznami som rozmyslal, ze by som naprogramoval program na vyhladavanie duplicitnych suborov. Myslim, ze si teraz najdem na to cas :)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.