Portál AbcLinuxu, 9. května 2025 05:56

Dotaz: porovnání souborů ve dvou složkách

23.3.2011 17:34 Tomasko | skóre: 4
porovnání souborů ve dvou složkách
Přečteno: 1403×
Odpovědět | Admin
Ahoj. Hledal jsem tady na foru, a nic jsem si neodnesl :/ Uz jsem v koncich, nevim jak na to. Potřebuji ze dvou adresaru (treba adresar "a" a adresar "b") projit soubory a slozky a porovnat je. Pokud je v nejakem souboru zmena, ci nejaky chybi vypsat jej. Zkousel jsem diff s grepem a sedem, ale nedari se.(kdyz ma slozka a soubor stejny nazev) a jeste se mi nedari sedem oklestit cestu k souboru, ktere jsou rozdilne.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

23.3.2011 18:04 Sten
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Odpovědět | | Sbalit | Link | Blokovat | Admin
diff --brief -r a b
23.3.2011 18:14 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
diff --brief -r /test/temp/a /test/temp/b > vystupni_soubor jsem zacatecnik, ale tohle mi nevypise nic
23.3.2011 18:24 l4m4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Tak se asi neliší obsahem.

diff -r -N --brief ...
23.3.2011 18:26 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
pardon, měl jsem tam chybu, vypisuje. Ale vynecha mi to soubory v slozce, ktera se jmenuje stejne jako soubor.

Soubor /test/temp/a/ahoj/readme je obyčejný soubor pokud soubor /test/temp/b/ahoj/readme je adresář a soubory v adresáři readme už to neporovnava
23.3.2011 18:31 Sten
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
diff --brief vypíše, které soubory se liší, a s -r to udělá i v podadresářích
23.3.2011 18:37 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
jo ale pokud najde v adresáři "a" složku read a v adresari "b" soubor read, tak vypise, ze je rozdil, ale pak by měl vypsat cely obsah slozky read v adresari "a", protože v adresari "b" tahle slozka neni, tzn. ze se lisi, a ja to nedovedu napsat do programu :/
23.3.2011 20:14 Sten
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Pokud zjistíte, že někde chybí adresář, můžete příkazem file zjistit všechny soubory v něm
23.3.2011 22:01 l4m4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Asi spíš příkazem find. Tj. porovnání adresářových stromů - vypsat findem jeden i druhý do souboru, na ty soubory pak spustit diff.
24.3.2011 11:49 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
find /temp/a -type f >/temp/adresarovy_list_a #zjistime strom adresare find /temp/c -type f >/temp/adresarovy_list_c diff /temp/adresarovy_list_a /temp/adresarovy_list_c >vystupni_soubor

do vystupniho souboru mi to nevypise, ktere soubory jsou rozdilne, jen mi to sjednoti jakoby vystup ze dvou findu

24.3.2011 12:15 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Oni řeší případ kdy v jednom adresáři je soubor a v druhém adresář téhož jména, a diff ho nevypíše, přestože všechny soubory v něm logicky neexistují v opačném stromě. Tedy k vypsání findem je k mání jen jeden adresář.
24.3.2011 12:16 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Asi takto:
bash$ diff -r --brief a b
Files a/a and b/a differ
File a/b is a regular empty file while file b/b is a directory
Only in b: c

bash$ find b/b
b/b
b/b/g
b/b/h
To že diff jen oznámí že to je adresář ale soubory v něm nevypíše je trochu zákeřné :(
24.3.2011 13:30 l4m4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
No však ano. Jedním standardním příkazem to neuděláš.

1) Zjištění odlišností v adresářové struktuře: find v a, find v b (s -printf %P), výsledky porovnám diffem.

2) Zjištění odlišností ve stejnomenných souborech: find -r --brief.
24.3.2011 11:53 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Odpovědět | | Sbalit | Link | Blokovat | Admin
možná, jsem to špatně napsal, nechci vypsat přímo změny v soborech, ale jen jestli je soubor jinaci v jedne slozce nez ve druhe a pokud je jinaci např(obsah ahoj.txt je ve složce a jinačí než ve složce b), tak vypsat /temp/bla/ahoj.txt
24.3.2011 12:30 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Odpovědět | | Sbalit | Link | Blokovat | Admin
Pokud nepotřebuješ textový výstup, pak např. Xkový dirdiff. Jinak by to jednostranně uměl rsync, nebo http://evp-dirdiff.sourceforge.net ?
24.3.2011 12:44 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
textovy vystup myslite do *.txt? potrebuju to na stdout. Jinak stale nevim jak na to diff mi teda nevypise jake soubory jsou rozdilne. Nechci vypsat v čem, jen jaké to jsou.
24.3.2011 13:55 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Nepsal jsem diff, ale dirdiff :)
24.3.2011 15:26 Tomasko | skóre: 4
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Odpovědět | | Sbalit | Link | Blokovat | Admin
už mám vyřešeno. nejdřív jsem si vypsal find-y, pak jsem to upravil sed-em pak sort -uo(seřadil a vymazal duplikaty) a pak jsem to radek po radku prohnal pres while s cmp-s a vypsal, co se neporovnalo resp. cmp-s || echo
24.3.2011 21:28 Kit
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Na hledání duplicit se dá s výhodou využít program md5sum nebo sha1sum. Hash se porovná mnohem rychleji než kompletní obsah souboru. S pomocí např. sortu se dají najít shodné soubory s různým názvem mezi tisícovkami jiných souborů během velmi krátké doby.
25.3.2011 06:42 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Na mp3 používám třeba tohle (stejně velké soubory se stejnou md5sum mažu a linkuji pod původním názvem na první z nich), kolize md5 ingoruji :D
mp2=""
ls -S -- *.mp3 | while read; do
  mp3="$REPLY"
  if [[ -n "$mp2" ]]; then
    size2="$(stat --format "%s" -- "$mp2")"
    size3="$(stat --format "%s" -- "$mp3")"
    if [[ "$size3" == "$size2" ]]; then
      md5sum2="$(md5sum -- "$mp2" | cut -d\  -f 1)"
      md5sum3="$(md5sum -- "$mp3" | cut -d\  -f 1)"
      if [[ "$md5sum3" == "$md5sum2" ]]; then
        echo "ln -s -- \"$mp2\" \"$mp3\""
        rm -- "$mp3" && ln -s -- "$mp2" "$mp3"
        continue
      fi
    fi
  fi
  mp2="$mp3"
done
Samozřejmě hodně záleží na účelu použití, poškozené (tedy jinak velké) soubory se stejným názvem by se hledaly zase jinak, že, ale princip je podobný.
25.3.2011 06:46 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Samozřejmě je to neoptimální, věci se počítají dvakrát, procesy se spouští v každém cyklu apod., ale o to mi nešlo, spíš o ilustraci jednoduchého postupu (porovnat velikosti, pak případně md5sum).
25.3.2011 10:44 Kit
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Pro hledání a odstraňování duplicit používám tento několik let starý skript. Dnes bych ho napsal jinak, ale nechce se mi ho předělávat. Každá MD5 se počítá pouze 1x. Kolizemi se netrápím. Kdo chce, použije místo md5sum třeba sha1sum nebo sha512sum.

Bez parametru pouze vyhledává duplicity, s parametrem -rm je i smaže.
#!/bin/sh
#
old=xxxxxxxxxxxxxxxxxxxxxxxxxx
oldn=xxxxxxxxxxxxxxxxxxxxxxxxxx
stav=0

find . -type f -iname "*" -exec md5sum '{}' ';' |
   sort |
        while read md5 nazev; do
                if test "$old" = "$md5"; then
                        if test $stav -eq 0; then
                                echo "=== $oldn";
                                stav=1;
                        fi
                        if test "$1" = "-rm"; then
                                echo "rm  $nazev"
                                rm "$nazev"
                        else
                                echo "    $nazev"
                        fi
                else
                        stav=0
                fi
                old="$md5"
                oldn="$nazev"
        done
25.3.2011 14:55 2
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
0.75TB nepouzitelne. prilis mnoho falesnych duplicit.
25.3.2011 16:47 Kit
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Ukaž nám prosím alespoň jednu jedinou falešnou duplicitu, tedy dva soubory se stejným MD5 a rozdílným obsahem.

Uznávám, že SHA-1 je lepší, ale na běžné použití musí MD5 stačit.
25.3.2011 16:47 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Tím myslíte příliš mnoho stejně velkých souborů se stejnou md5?
25.3.2011 17:12 lejo
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
jak pisu niz, souboru nulove delky maji obvykle stejnou md5.
25.3.2011 17:58 Ash | skóre: 53
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Tak tomu bych spíš věřil (že si toho nevšiml), než že má opravdu hafo mp3 stejné délky, stejné md5sum a různého obsahu :D
25.3.2011 17:11 lejo
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
prilis mnoho prazdnych souboru, ze ano!
25.3.2011 14:53 2
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Odpovědět | | Sbalit | Link | Blokovat | Admin
krusader - synchronize directories.
25.3.2011 19:40 moira | skóre: 30 | blog: nesmysly
Rozbalit Rozbalit vše Re: porovnání souborů ve dvou složkách
Odpovědět | | Sbalit | Link | Blokovat | Admin
Taky by možná pomohl rsync, něco ve stylu rsync -rvcn a b, tj. nedělat nic ve skutečnosti, jen vypisovat co by udělal.
Překladač ti nikdy neřekne: "budeme kamarádi"

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.