Přihlášení | Registrace

napište » Zprávičky

CAD soubory rámů tiskáren Prusa CORE One a CORE One L pod novou licencí OCL neboli Open Community License

19.12. 17:22 | IT novinky

Josef Průša oznámil zveřejnění kompletních CAD souborů rámů tiskáren Prusa CORE One a CORE One L. Nejsou vydány pod obecnou veřejnou licenci GNU ani Creative Commons ale pod novou licencí OCL neboli Open Community License. Ta nepovoluje prodávat kompletní tiskárny či remixy založené na těchto zdrojích.

Ladislav Hagara | Komentářů: 2

Ve Firefoxu bude existovat volba pro zakázání všech AI funkcí

19.12. 17:00 | Komunita

Nový CEO Mozilla Corporation Anthony Enzor-DeMeo tento týden prohlásil, že by se Firefox měl vyvinout v moderní AI prohlížeč. Po bouřlivých diskusích na redditu ujistil, že v nastavení Firefoxu bude existovat volba pro zakázání všech AI funkcí.

Ladislav Hagara | Komentářů: 0

V Edici CZ.NIC vychází kniha Kity, bity, neurony od Martina Malého

19.12. 10:11 | IT novinky

V pořadí šestou knihou autora Martina Malého, která vychází v Edici CZ.NIC, správce české národní domény, je titul Kity, bity, neurony. Kniha s podtitulem Moderní technologie pro hobby elektroniku přináší ucelený pohled na svět současných technologií a jejich praktické využití v domácích elektronických projektech. Tento knižní průvodce je ideální pro každého, kdo se chce podívat na současné trendy v oblasti hobby elektroniky, od

… více »

Ladislav Hagara | Komentářů: 1

Výroční zpráva Linux Foundation za rok 2025

19.12. 03:11 | Komunita

Linux Foundation zveřejnila Výroční zprávu za rok 2025 (pdf). Příjmy Linux Foundation byly 311 miliónů dolarů. Výdaje 285 miliónů dolarů. Na podporu linuxového jádra (Linux Kernel Project) šlo 8,4 miliónu dolarů. Linux Foundation podporuje téměř 1 500 open source projektů.

Ladislav Hagara | Komentářů: 0

Novinky v Kdenlive 25.12.0

19.12. 02:11 | Zajímavý článek

Jean-Baptiste Mardelle se v příspěvku na blogu rozepsal o novinkám v nejnovější verzi 25.12.0 editoru videa Kdenlive (Wikipedie). Ke stažení také na Flathubu.

Ladislav Hagara | Komentářů: 0

OpenZFS 2.4.0

19.12. 02:00 | Nová verze

OpenZFS (Wikipedie), tj. implementace souborového systému ZFS pro Linux a FreeBSD, byl vydán ve verzi 2.4.0.

Ladislav Hagara | Komentářů: 0

Mezinárodní operace OCTOPUS a CONNECT

19.12. 01:00 | IT novinky

Kriminalisté z NCTEKK společně s českými i zahraničními kolegy objasnili mimořádně rozsáhlou trestnou činnost z oblasti kybernetické kriminality. V rámci operací OCTOPUS a CONNECT ukončili činnost čtyř call center na Ukrajině. V prvním případě se jednalo o podvodné investice, v případě druhém o podvodné telefonáty, při kterých se zločinci vydávali za policisty a pod legendou napadeného bankovního účtu okrádali své oběti o vysoké finanční částky.

Ladislav Hagara | Komentářů: 4

Instalace 5G opakovačů ve vlacích ČD je dokončena

18.12. 14:44 | IT novinky

Na lepší pokrytí mobilním signálem a dostupnější mobilní internet se mohou těšit cestující v Pendolinech, railjetech a InterPanterech Českých drah. Konsorcium firem ČD - Telematika a.s. a Kontron Transportation s.r.o. dokončilo instalaci 5G opakovačů mobilního signálu do jednotek Pendolino a InterPanter. Tento krok navazuje na zavedení této technologie v jednotkách Railjet z letošního jara.

Ladislav Hagara | Komentářů: 6

Rozšíření webového prohlížeče slibující ochranu soukromí prodává AI konverzace milionů uživatelů

18.12. 12:22 | Bezpečnostní upozornění

Rozšíření webového prohlížeče Urban VPN Proxy a další rozšíření od stejného vydavatele (např. 1ClickVPN Proxy, Urban Browser Guard či Urban Ad Blocker) od července 2025 skrytě zachytávají a odesílají celé konverzace uživatelů s AI nástroji (včetně ChatGPT, Claude, Gemini, Copilot aj.), a to nezávisle na tom, zda je VPN aktivní. Sběr probíhá bez možnosti jej uživatelsky vypnout a zahrnuje plný obsah dotazů a odpovědí, metadata relací i

… více »

Ladislav Hagara | Komentářů: 5

QStudio je open source

18.12. 05:22 | Zajímavý software

QStudio, tj. nástroj pro práci s SQL podporující více než 30 databází (MySQL, PostgreSQL, DuckDB, QuestDB, kdb+, …), se stal s vydáním verze 5.0 open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí Apache 2.0.

Ladislav Hagara | Komentářů: 6

Centrum | Napsat | Starší

navrhněte » Anketa

Kdo vám letos nadělí dárek?

Ježíšek (23%)

Santa Claus (0%)

Děda Mráz (8%)

La Befana (0%)

Odin (4%)

Laskakit (4%)

Někdo z rodiny (12%)

Já sám (31%)

Nikdo (19%)

Celkem 26 hlasů

Komentářů: 12, poslední včera 16:06

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Linuxová poradna / efektivní hledání duplikátních souborů

Štítky: ATD

Dotaz: efektivní hledání duplikátních souborů

25.7.2014 23:08 lertimir | skóre: 64 | blog: Par_slov
efektivní hledání duplikátních souborů

Přečteno: 1269×

Odpovědět | Admin

Máme nějaký nástroj na efektivní hledání duplikátních souborů. Zatím jsem narazil jen na konstrukce typu

find -type f -exec md5sum '{}' ';' | sort | uniq --all-repeated=separate -w 33 | cut -c 35-

případně programy fdupes a fslint. Což není, co bych si představoval. Hledám program, který by na jméno souboru odpověděl jestli je sám nebo má duplikáty podobně efektivním způsobem jako je hledání locate. Představoval bych si to podobně jako locate ve dvou částech. první pravidelný univerzální běh spočte hash a vytvoří DB s primárním klíčem hash a value bude seznam souborů, které tento hash mají. Pak by se dalo rozumně rychle dotazovat jednak na duplikát k souboru a také na to jaké máme soubory s duplicitou 2, 3 atd.

Řešení dotazu:

Nástroje: Začni sledovat (3) ?

Odpovědi

25.7.2014 23:29 jadd | skóre: 34 | blog: Greenhorn
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

gthumb?

25.7.2014 23:58 pipi
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

26.7.2014 00:48 jadd | skóre: 34 | blog: Greenhorn
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

To patří tvůrcům, děkujem;) ovšem jestli je to řešení i pro tazatele, má vyšší prioritu.

26.7.2014 01:11 jadd | skóre: 34 | blog: Greenhorn
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Ještě pro ilustraci, http://www.e-ott.info/2012/08/11/jak-najit-duplicitni-obrazky-a-odstranit-je-pomoci-gthumb-a-geeqie/gthumb-duplicity-vysledky

Používá se obsah ale jestli byte-to-byte nebo hash spolehlivější než md5, to nevím. Mě to vždy našlo spolehlivě, přes počáteční nedůvěru.

26.7.2014 11:20 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

No ne tak zcela. spíše hledám něco, co by spočetlo jen hashe a nemuselo vytvořit nějakých cca 2 000 000 thumbnailů. Navíc moje prostředí je KDE, tedy částečně bych to mohl vyřešit tím že vše zařadím do sbírek. ale to kde hledám duplicity nejsou to moje obrázky, ale třeba sbírka komixů a tím zahlcením digikamové databáze by se zpomalila práce s databází ve všech případech. Navíc další potenciální duplicity jsou v pdf a ppt souborech, což nevyřeší manager obrázků.

26.7.2014 11:26 Kit | skóre: 46 | Brno
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

ZFS

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

31.7.2014 17:44 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

A jak pomůže ZFS debordelizovat souborový systém? To je hezké, že to ZFS uloží jenom jednou, ale virtuálně ten bordel pro uživatele zůstane...

multicult.fm | monokultura je zlo | welcome refugees!

26.7.2014 11:38 Pavel 'TIGER' Růžička | skóre: 54
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Nebudu vypisovat již jednou napsané.

27.7.2014 00:56 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Z toho odzaku jsem vycházel, než jsem se ptal. Už jsem spustil fdupes, pak mi došlo, že tak jako updatedb se to prostě dělat nedá. Protože při hledání duplicit musí se přečíst celý obsah disků, nejen adresářová struktura, což jsou u mne terabyty. Zatím fdupes běží 10 hodin a ještě není ve 1/4.

27.7.2014 00:57 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

tedy odkazu. :-)

27.7.2014 01:11 jadd | skóre: 34 | blog: Greenhorn
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

víš o tom že má volbu DIRECTORY atd.?

27.7.2014 02:01 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Jo volba fdupes -r dir1 dir2 .... Probírám jen to co je namountováno v /mnt a /windows ani /home neprojíždím, protože to mám na SSD a tam ty duplikáty jsou pro rychlou práci.

28.7.2014 10:15 vandrovnik | skóre: 21
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Když je to hledání dobře napsané, tak nemusí. Načte adresáře, srovná podle velikostí. Obsah souborů ho zajímá, jen když mají soubory shodnou velikost. A i pak lze číst po blocích a porovnávat, protože odlišnosti zpravidla budou i na začátku (nebude příliš běžné, aby u 100 GB souboru byl první rozdíl až někde v půlce apod.).

28.7.2014 18:10 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Samozřejmě vše musí přečíst jen u těch skutečně duplikátních. Obávám se že jich mám hodně. po dvou dnech je výpočet v polovině.

28.7.2014 21:38 axel
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Ze musi v pripade presne shody precist vsechno je asi zrejme. Takze pokud mas "terabyty" a je tam hodne shodnych, nemelo by te prekvapit, ze to bezi dlouho.

29.7.2014 21:08 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

To nepřekvapilo tak moc. Už běh doběhl a ukazuje se, že duplikátů mám mnohem více než jsem si myslel. Výsledný formát má tvar

/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/standa/PC090085.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/S3/PC090085.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_1_/1209-1846-St090085.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_2_/1209-1846-St090085.JPG

/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/standa/PC090084.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/S3/PC090084.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_1_/1209-1845-St090084.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_2_/1209-1845-St090084.JPG

/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/standa/PC090085.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/S3/PC090085.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_1_/1209-1846-St090085.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_2_/1209-1846-St090085.JPG

/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/standa/PC090084.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky-zdroj/S3/PC090084.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_1_/1209-1845-St090084.JPG
/windows/zaloha_2/z_externiho/__Movie____/_STANDA_Argentina/Argentina-fotky/Argentina-fotky_2_/1209-1845-St090084.JPG

/windows/zaloha_2/Filmy/foto_zazalohovat/backup_/cfc-0012/dcim/165canon/mvi_6541.avi
/windows/zaloha_2/Filmy/video/Radek/nezpracovano/CFC-0012/DCIM/165CANON/MVI_6541.AVI
/mnt/crypted1/Foto/zpracovano/foto_zazalohovat/backup_/cfc-0012/dcim/165canon/mvi_6541.avi
/mnt/afx/obrazky/Photo_original/2006/norsko/avi/norsko-20111207_4403_1.avi
/mnt/basic/public/obrazky/obrazky/Photo_original/2006/norsko/avi/norsko-20111207_4403_1.avi
/windows/zaloha_2/foto_zazalohovat/backup_/cfc-0012/dcim/165canon/mvi_6541.avi

Tedy sada řádků s plnými názvy souborů, a každou skupinu stejných souborů odděluje jeden prázdný řádek. Soubor duplikátů je obrovský, takže ruční práce není možná. A pokouším se načíst, jak bych mohl dát dohromady script s následující funkcionalitou:

Specifikuji adresář např /mnt/afx/obrazky/Photo_original a extenzi např. avi
Skript se bude věnovat jen těm blokům duplikátů, v nichž najde soubor s specifikovanou počáteční cestou a extenzí.
V příslušném bloku vezme všechny ostatní řádky přidá na jejich začátek "rm " a vloží je do souboru delete_duplicates.
Pokud by se podařilo, aby současně vytvořil soubor duplicates_new, který by obsahoval původní soubor duplikátů s vyřazením těch bloků, které byly zpracovávány, dostal bych iterativní krok, který mi vytvoří přikaz, který převede situaci s nalezenými duplikáty ve stavu duplicates do stavu duplicates_new
To, že někdy bych potřeboval, aby zbyly třeba dvě lokace umístění souborů už vyřeší grep -v /mnt/jiny/adresar na souboru delete_duplicates

Ale to první nevím, myslím si, že by to mohlo snad jít s awk nebo sed, ale neznám je. Nebylo by nějaké nakopnutí?

30.7.2014 14:06 Peter Golis | skóre: 65 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

To vyzerá na výstup z fdupes, a ten má aj parametre --delete a --noempty. Ale s ním by som narával opatrne, napríklad multivolume archívy RAR zvyknú mať rovnaký MD5 checksum.

30.7.2014 14:53 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Ano je to z fdupes, parametr --delete je k něčemu jen na jednoduché porovnání. v komplexnějším příkladu je třeba přesně specifikovat, které umístění nechat a které smazat a to v --delete není. (To, že multivolume archive má stejnou MD5 a přitom je různý velmi zpochybňuji. Sice na MD5 je možné vyrobit kolizi, ale dá to hodně práce.)

30.7.2014 19:26 Peter Golis | skóre: 65 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Ten argument delete som nepoužíval, radšej som to riešil ručne. Ale mal by biť popísaný.

A s tým multivolume rar? Nejednalo sa o kolíziu ale o archív ktorý sa dal rozbaliť v prípade ak sa jedna z napríklad desiatich diskiet poškodila. V zarovnaní bloku sa dali doplniť hluché miesta údajmi. Kedysi, dávno pradávno som to používal. A ešte pred časom sa mi dostal do rúk podobný archív, len bol sekaný na cca 100M.

30.7.2014 20:39 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

ten duplikátní soubor ze zpracování prostoru asi 10Tb má pře 1 500 000 řádků. ruční práce je vyloučena. Vzhledem k tomu že na dotaz nikdo nezareagoval tak to nějak vymyslím.

A k hashi. Pokud mají dva soubory stejný hash jsou stejné. Platí to samozřejmě až té míry, že pokud je v hash funkci chyba, tak je možné cíleně vyvolat záměrnou kolizi. A tuhle vadu MD5 sice má, ale to se pro náhodně zmodifikovaný archiv neprojeví. Pouze v možnosti cíleného kolizního útoku ala Wang nebo Klima.

31.7.2014 01:02 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Tak jsem splácal skript v perlu, který dělá přesně to, co jsem potřeboval.

31.7.2014 09:55 necojakolinux | skóre: 10
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

tak šup sem s ním ne ?

31.7.2014 18:53 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

To by mě taky zajímalo.

multicult.fm | monokultura je zlo | welcome refugees!

6.8.2014 23:16 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Napíšu jak se vrátím z dovolené. systém je teď vypnutý.

27.8.2014 16:54 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: efektivní hledání duplikátních souborů

Řešení jsem blogoval tady

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje