porovnání souborů ve dvou složkách

diff --brief -r a b

23.3.2011 18:14 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

diff --brief -r /test/temp/a /test/temp/b > vystupni_soubor jsem zacatecnik, ale tohle mi nevypise nic

23.3.2011 18:24 l4m4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Tak se asi neliší obsahem.

diff -r -N --brief ...

23.3.2011 18:26 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

pardon, měl jsem tam chybu, vypisuje. Ale vynecha mi to soubory v slozce, ktera se jmenuje stejne jako soubor.

Soubor /test/temp/a/ahoj/readme je obyčejný soubor pokud soubor /test/temp/b/ahoj/readme je adresář a soubory v adresáři readme už to neporovnava

23.3.2011 18:31 Sten
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

diff --brief vypíše, které soubory se liší, a s -r to udělá i v podadresářích

23.3.2011 18:37 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

jo ale pokud najde v adresáři "a" složku read a v adresari "b" soubor read, tak vypise, ze je rozdil, ale pak by měl vypsat cely obsah slozky read v adresari "a", protože v adresari "b" tahle slozka neni, tzn. ze se lisi, a ja to nedovedu napsat do programu :/

23.3.2011 20:14 Sten
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Pokud zjistíte, že někde chybí adresář, můžete příkazem file zjistit všechny soubory v něm

23.3.2011 22:01 l4m4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Asi spíš příkazem find. Tj. porovnání adresářových stromů - vypsat findem jeden i druhý do souboru, na ty soubory pak spustit diff.

24.3.2011 11:49 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

find /temp/a -type f >/temp/adresarovy_list_a #zjistime strom adresare find /temp/c -type f >/temp/adresarovy_list_c diff /temp/adresarovy_list_a /temp/adresarovy_list_c >vystupni_soubor

do vystupniho souboru mi to nevypise, ktere soubory jsou rozdilne, jen mi to sjednoti jakoby vystup ze dvou findu

24.3.2011 12:15 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Oni řeší případ kdy v jednom adresáři je soubor a v druhém adresář téhož jména, a diff ho nevypíše, přestože všechny soubory v něm logicky neexistují v opačném stromě. Tedy k vypsání findem je k mání jen jeden adresář.

24.3.2011 12:16 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Asi takto:

bash$ diff -r --brief a b
Files a/a and b/a differ
File a/b is a regular empty file while file b/b is a directory
Only in b: c

bash$ find b/b
b/b
b/b/g
b/b/h

To že diff jen oznámí že to je adresář ale soubory v něm nevypíše je trochu zákeřné :(

24.3.2011 13:30 l4m4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

No však ano. Jedním standardním příkazem to neuděláš.

1) Zjištění odlišností v adresářové struktuře: find v a, find v b (s -printf %P), výsledky porovnám diffem.

2) Zjištění odlišností ve stejnomenných souborech: find -r --brief.

už mám vyřešeno. nejdřív jsem si vypsal find-y, pak jsem to upravil sed-em pak sort -uo(seřadil a vymazal duplikaty) a pak jsem to radek po radku prohnal pres while s cmp-s a vypsal, co se neporovnalo resp. cmp-s || echo

24.3.2011 21:28 Kit
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Na hledání duplicit se dá s výhodou využít program md5sum nebo sha1sum. Hash se porovná mnohem rychleji než kompletní obsah souboru. S pomocí např. sortu se dají najít shodné soubory s různým názvem mezi tisícovkami jiných souborů během velmi krátké doby.

25.3.2011 06:42 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Na mp3 používám třeba tohle (stejně velké soubory se stejnou md5sum mažu a linkuji pod původním názvem na první z nich), kolize md5 ingoruji :D

mp2=""
ls -S -- *.mp3 | while read; do
  mp3="$REPLY"
  if [[ -n "$mp2" ]]; then
    size2="$(stat --format "%s" -- "$mp2")"
    size3="$(stat --format "%s" -- "$mp3")"
    if [[ "$size3" == "$size2" ]]; then
      md5sum2="$(md5sum -- "$mp2" | cut -d\  -f 1)"
      md5sum3="$(md5sum -- "$mp3" | cut -d\  -f 1)"
      if [[ "$md5sum3" == "$md5sum2" ]]; then
        echo "ln -s -- \"$mp2\" \"$mp3\""
        rm -- "$mp3" && ln -s -- "$mp2" "$mp3"
        continue
      fi
    fi
  fi
  mp2="$mp3"
done

Samozřejmě hodně záleží na účelu použití, poškozené (tedy jinak velké) soubory se stejným názvem by se hledaly zase jinak, že, ale princip je podobný.

25.3.2011 06:46 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Samozřejmě je to neoptimální, věci se počítají dvakrát, procesy se spouští v každém cyklu apod., ale o to mi nešlo, spíš o ilustraci jednoduchého postupu (porovnat velikosti, pak případně md5sum).

25.3.2011 10:44 Kit
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Pro hledání a odstraňování duplicit používám tento několik let starý skript. Dnes bych ho napsal jinak, ale nechce se mi ho předělávat. Každá MD5 se počítá pouze 1x. Kolizemi se netrápím. Kdo chce, použije místo md5sum třeba sha1sum nebo sha512sum.

Bez parametru pouze vyhledává duplicity, s parametrem -rm je i smaže.

#!/bin/sh
#
old=xxxxxxxxxxxxxxxxxxxxxxxxxx
oldn=xxxxxxxxxxxxxxxxxxxxxxxxxx
stav=0

find . -type f -iname "*" -exec md5sum '{}' ';' |
   sort |
        while read md5 nazev; do
                if test "$old" = "$md5"; then
                        if test $stav -eq 0; then
                                echo "=== $oldn";
                                stav=1;
                        fi
                        if test "$1" = "-rm"; then
                                echo "rm  $nazev"
                                rm "$nazev"
                        else
                                echo "    $nazev"
                        fi
                else
                        stav=0
                fi
                old="$md5"
                oldn="$nazev"
        done

25.3.2011 14:55 2
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

0.75TB nepouzitelne. prilis mnoho falesnych duplicit.

25.3.2011 16:47 Kit
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Ukaž nám prosím alespoň jednu jedinou falešnou duplicitu, tedy dva soubory se stejným MD5 a rozdílným obsahem.

Uznávám, že SHA-1 je lepší, ale na běžné použití musí MD5 stačit.

25.3.2011 16:47 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Tím myslíte příliš mnoho stejně velkých souborů se stejnou md5?

25.3.2011 17:12 lejo
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

jak pisu niz, souboru nulove delky maji obvykle stejnou md5.

25.3.2011 17:58 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

Tak tomu bych spíš věřil (že si toho nevšiml), než že má opravdu hafo mp3 stejné délky, stejné md5sum a různého obsahu :D

25.3.2011 17:11 lejo
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách

prilis mnoho prazdnych souboru, ze ano!

Dotaz: porovnání souborů ve dvou složkách

Odpovědi