Find v cyklu a vypis duplikace

Mam za ukol vyhledat v slozce stable soubory obsahujici GPG klice a zkopiruju je do adresare dnesniho data. To udelam prikazem cp -ib `find stable -type f -name "*.gpg"` `date '+%Y-%m-%d-%H-%M'` a ted je problem, ze musim nejspis udelat cyklus protoze jsou zde ve slozce stable soubory ktere maji stejny nazev a ja je nechci prepsat. A chci vypsat ktere ty dva stejne soubory to jsou a kde jsou ulozeny. Tento prikaz to vypise find stable -name "*.gpg" -exec ls -l {} \; ale porad nevim jak presne udelat ten cyklus v kterym by to jelo a podminku abych vypsal jen ty duplikovany.

V tom cyklu jeste kazdy *.gpg soubor importuju do gpg klicenky. To by bylo vse v tom cyklu ktery nevim jak udelat.

Premyslel jsem forem, protoze si spocitam kolik GPG souboru jsem zkopiroval,ale nejsem si jist jak...

A potom porovnat obsah souboru *.gpg ve vytvorene slozce napr. 2009-06-03-20-30 a obsah souboru v nove vytvorene slozce dnesniho data. To bych asi udelal diffem. A rozdil vypsat.

2.6.2009 17:22 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Aha, tak to si stačí přečíst manuál k cp.

--reply[=HOW]
     Using `--reply=yes' makes `cp' act as if `yes' were given as a
     response to every prompt about a destination file.  That
     effectively cancels any preceding `--interactive' or `-i' option.
     Specify `--reply=no' to make `cp' act as if `no' were given as a
     response to every prompt about a destination file.  Specify
     `--reply=query' to make `cp' prompt the user about each existing
     destination file.

tj. "--reply=no" nebude nic přepisovat, případně

-u, --update
     copy  only  when  the  SOURCE file is newer than the destination
     file or when the destination file is missing

In Ada the typical infinite loop would normally be terminated by detonation.

2.6.2009 17:57 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Pokud chcete nějak rozumně zobrazit ty duplicity názvů, tak mne tak narychlo napadlo:

find stable -name "*.gpg" > files
find stable -name "*.gpg" | while read f; do
  filename=$(basename "$f")
  if grep -E ".*/$filename\$" files | grep -v "$f"; then
    echo "\\$f"
  fi
done

2.6.2009 20:29 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

grep -vE "^$f\$"

2.6.2009 23:06 Rodeo65
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Diky za pomoc to co jsi napsal mi fakt pomohlo. Uz jsem to mel taky v soboru, ale ten cyklus mi delal problem. Teprv se v shellu ucim.

Kdyz bych chtel taky cyklem projizdet slozky a hledat urcite soubory tak to udelam taky pres while, nebo je nejaka vychytavka? :-)

3.6.2009 08:28 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Záleži na tom co o tom souboru potřebujete zjistit. Na hodně věcí stačí jen find (typ souburu, práva, mtime...), na něco složitější (typ kodeku videosouboru) je to už lepší předávat whilecyklu a tam to pořešit utilitami pro danou úlohu vhodnými.

3.6.2009 06:58 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Z toho mi bliká červená kontrolka N²

In Ada the typical infinite loop would normally be terminated by detonation.

3.6.2009 08:25 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Tak když se zamyslíte kolik je to N, tak kontrolka zase rychle zhasne.

3.6.2009 12:33 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Myslíte tohle?

jedna slozka ve ktere to hledam ma x tisic slozek

Z toho mi nic nezhasíná.

In Ada the typical infinite loop would normally be terminated by detonation.

3.6.2009 13:39 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Aha, no tak jestli tím bylo myšleno že těch *.gpg souborů je několik tisíc (?), tak pak se vyplatí řešení od deadmail uvedené níže. Já o něm původně uvažoval, ale dostal jsem se jen k uložení do souboru a setřídění podle basename, pak už se mi to nechtělo parsovat protože awk moc neumím :) Asi bych to byl napsal v bashi:

find original -name "*.gpg" -printf "%f\t%p\n" | sort -k1,1 -t"      " | while IFS="      " read filename fullname; do
[[ "$filename" == "$oldfilename" ]] && echo -e "$fullname\n>$oldfullname";
  oldfilename="$filename";
  oldfullname="$fullname";
done

3.6.2009 14:42 deadmail
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

To riesenie s awk-om vypise subory s opakujucimi sa menami, kazdy prave raz.

Uvedene riesenie v bash-i je zjednodusena verzia, vzdy vypise subor a k nemu nazov suboru ku ktoremu sa porovnava - teda ak su tri subory, tak celkovo vypise styri nazvy (v tvare druhy >prvy treti >prvy).

3.6.2009 15:58 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Sem doufal že to po mně někdo opraví :D ale asi bych měl sám no.

oldfullname="";
find original -name "*.gpg" -printf "%f\t%p\n" | sort -k1,1 -t"    " | while IFS="    " read filename fullname; do
  if [[ "$filename" == "$oldfilename" ]]; then
    echo -e "$oldfullname$fullname";
    oldfullname="";
  else
    oldfullname="$fullname\n";
  fi;
  oldfilename="$filename";
done

3.6.2009 16:17 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Jo to už vypadá použitelně, jen místo toho tabu v uvozovkách bych použil něco jako `echo -ne '\t'`

In Ada the typical infinite loop would normally be terminated by detonation.

3.6.2009 17:47 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Já bych zase použil $'\t', kdybych to tedy chtěl komplikovat.

3.6.2009 21:06 deadmail
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

este na zaciatok doplnit oldfilename="", aby tam nahodou niekto nedal nazov prveho suboru ;-)

a to IFS=" " by mohlo byt pred while, aby sa nemuselo nastavovat pre kazdy riadok, nie?

3.6.2009 21:50 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

1) ano oldfilename mi vypadlo ale neřešil jsem to protože pravděpodobnost je nízká :D

2) záleží na situaci, pokud to spouštíte v aktuálním shellu který ještě míníte používat, musel by se zazálohovat a pak obnovit, pokud to pouštíte ve skriptu, lze s určitým rizikem pozdější chyby zálohu neudělat. A nebo pokud byste to třeba chtěl mezi pajpu a while což je častá chyba tak tam to syntakticky nejde. Určitě si každý najde své optimální řešení.

3.6.2009 21:54 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Také by šly vynechat nadbytečné středníky, těch je tam taky hodně.

3.6.2009 23:18 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Jinak mne napadlo že jako oddělovač by šlo v uvedeném případě místo tabu použít lomítko, čímž bychom se zbavili problému (pravda spíš hypotetickému) s tabem v názvu souboru.

3.6.2009 23:42 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Tohle bude fungovat i pro soubory se znaky \t či \n v názvu :)

oldfilename=""
oldfullname=""
find original -name "*.gpg" -printf "%f/%p\0" | sort -k1,1 -t/ -z | xargs -n 1 --null echo | while IFS=/ read filename fullname; do
  if [[ "$filename" == "$oldfilename" ]]; then
    echo -e "$oldfullname$fullname";
    oldfullname=""
  else
    oldfullname="$fullname\n"
  fi
  oldfilename="$filename"
done

3.6.2009 23:45 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

jo nebude, problém je pořád s tím readem :( Dneska nemám den :)

4.6.2009 07:29 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Pokud chcete řešit takovéto zrůdnosti, tak to přepište do Perlu nebo podobně.

In Ada the typical infinite loop would normally be terminated by detonation.

4.6.2009 07:38 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Ale principiálně by mne zajímalo jestli se dají způsobem find | read nějak řešit soubory s \n v názvu. Připadá mi, že ne, ale zase přepisovat každý podobný problém do perlu jen aby byl obecně se mi také nelíbí :(

4.6.2009 07:41 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Nejschůdnější mne napadlo dát vnitřek cyklu o funkce a jméno souboru jí předávat přes xargs -0, to by nevyžadovalo žádné velké změny v kódu.

4.6.2009 21:54 deadmail
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

ale da sa, read ma prepinac na zmenu delimitera. Akurat treba dat pozor, ze znak null znamena aj koniec riadku v bash-i, tak sa musi tam zapisat $

find ... -print0 | while read -d $'\0' file; do echo "---$file---"; done

4.6.2009 22:02 deadmail
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

a este asi prepinac -r, kvoli spatnemu lomitku v nazvoch ... snad uz ten read zoberie vsetko mozne ;-)

4.6.2009 22:43 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

No výborně, díky!!

oldfilename=""
oldfullname=""
find original -name "*.gpg" -printf "%f/%p\0" | sort -k1,1 -t/ -z | while read -d $'\0' line; do
  filename=${line%%/*}
  fullname=${line#*/}
  if [[ "$filename" == "$oldfilename" ]]; then
    echo -e "$oldfullname\"$fullname\"";
    oldfullname=""
  else
    oldfullname="\"$fullname\"\n"
  fi
  oldfilename="$filename"
done

4.6.2009 22:44 Ash | skóre: 53
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Jo a to -r

5.6.2009 10:23 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Mně spíš šlo o to, že pak už neřešíte expanzi parametrů a kdovíco.

In Ada the typical infinite loop would normally be terminated by detonation.

3.6.2009 10:38 deadmail
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Riesenie v O(NlogN) pomocou sort a awk-u fungujuce ak v nazvoch suborov nie je tabulator ani znak konca riadku

find -name "*.gpg" -printf "%f\t%p\n"|sort -k1,1 -t" "|awk 'NR == 1{fn=$1;f=$2;b=0} NR>1 {if ($1 == fn) {if (b == 0) {print f};print $2; b=0} else {b=0};fn=$1;f=$2}'

Pozn: v prikaze sort za prepinacom -t je zadany tabulator v uvodzovkach ( CTRL-V, TAB)

10.6.2009 20:53 Rodeo65
Rozbalit Rozbalit vše Re: Find v cyklu a vypis duplikace

Moc dekuju vsem. Velice mi to pomohlo. Sam bych si neporadil, fakt diky moc VSEM

Dotaz: Find v cyklu a vypis duplikace

Odpovědi