Portál AbcLinuxu, 9. května 2025 22:14

Dotaz: wget stáhnutí a přejmenování ze souboru

2.6.2010 16:26 Jackass
wget stáhnutí a přejmenování ze souboru
Přečteno: 729×
Odpovědět | Admin
Dobrý den,

chtěl bych si ulehčit nějakým způsobem práci, šlo by udělat, aby mi wget přejmenoval rovonou stažené soubory??
wget -i souborsodkazy.txt  
kde mám adresu třeba
www.stranka.cc/song1.mp3
www.stranka.cc/song2.mp3
www.stranka.cc/song3.mp3
a wget ty soubory přejmenoval podle souboru nazvypisnicek.txt kde by treba bylo:
BritnaSpyrsova-Jsemtoxická.mp3
LeosMares.mp3
evaavasek-ducduc.mp3
Věcný dík

Řešení dotazu:


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

Jendа avatar 2.6.2010 16:37 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: wget stáhnutí a přejmenování ze souboru
Odpovědět | | Sbalit | Link | Blokovat | Admin
KOLIK=`wc -l souborsodkazy.txt`

for i in `seq 1 $KOLIK`; do
  wget `awk "FNR == $i" souborsodkazy.txt` -O `awk "FNR == $i" nazvypisnicek.txt`
done
(netestováno)
2.6.2010 16:40 l4m4
Rozbalit Rozbalit vše Re: wget stáhnutí a přejmenování ze souboru
Odpovědět | | Sbalit | Link | Blokovat | Admin
1. paste -d' ' souborodkazy.txt nazvypisnicek.txt

2. sedem dopsat na každý řádek wget a -O

3. spustit výsledek

;)

Jinými slovy, wget to sám neumí.
Řešení 1× (pakanek)
Fuky avatar 2.6.2010 17:16 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: wget stáhnutí a přejmenování ze souboru
Odpovědět | | Sbalit | Link | Blokovat | Admin
$ pr -mTs" -O " urls names |xargs -i bash -c "wget {}"
-- RÁMO: psí tábor , ETriatlon: Výuka plavání
2.6.2010 18:47 Jackass
Rozbalit Rozbalit vše Re: wget stáhnutí a přejmenování ze souboru
Děkuji vám všem,pánové :) Vyřešeno
3.6.2010 10:35 Ant
Rozbalit Rozbalit vše xargs
Musim se priznat, ze se ten prikaz snazim pochopit uz nejakou dobu a vubec mi to nejde hlavne proto, ze nechapu, jak presne funguje ten xargs.

Dival jsem po ruznych manovych strankach a internetovych navodech, ale strasne si to vsechno odporuje.

To "-i" tam podle manove stranky definuje ten nahrazovany retezec. V tomto pripade tedy "prazdny", ve smyslu toho {} umistenem za wget. Take by to melo jit nahradit "-I " (jak uvadi "man" a i Wikipedia), jenze to nefunguje. Navic podle POSIXu jsou uz "-ixxx" a "-I xxx" neplatne.

Taky chapu, ze ten bash se tam pousti kvuli tomu, aby si poradil s mezerama a novou radkou v te roure. Bez neho se mi to jednoduse zprovoznit nepovedlo.

Take jsem cetl proc spoustes shell v xargs a ty duvody tam uvedene jsou pochopitelne, ale nevysvetluji ten problem, co mam.
Aktualizace: Jeste jsem v poslednim pokusu zkusil to nejprimocarejsi:
pr -mTs" -O " urls names |xargs wget
a ono to funguje!

Zkontroloval jsem si, co ten wget dostava za parametry (" ...|xargs -t wget --spider") a dostava to tak, jak se mu to libi, tedy: "wget url1 -O name1 url2 -O name2 atd."

To jsem z toho opravdu jelen. Necitim se, ze bych zaludnostech xargs rozumel ted o neco vice. :-(
3.6.2010 11:55 Ash | skóre: 53
Rozbalit Rozbalit vše Re: xargs
xargs -i je starší (a depracated) verze zápisu xargs -I{}, takže to není "prázdný řetězec".

Pokud byste chtěl (obecně) vložit jako argument prázdný řetězec, lze to učinit buď

prokaz -i " " nebo s escapováním prikaz -i\  -j -k foo (povšimněte si dvou po sobě jdoucích mezer za obráceným lomítkem)
3.6.2010 12:54 Ant
Rozbalit Rozbalit vše Re: xargs
zápisu xargs -I{}, takže to není "prázdný řetězec"
Myslel jsem temi slovy "prazdny retezec" to, ze ten retezec parametru predavanych xargs neni pojmenovany (pomoci tech "-i" nebo "-I "), takze se pouzivaji {} (coz doted nevim, za co je to zkratka, odkud se to vzalo a kdo s tim prisel. Pouzivam to i u 'find' a tam se v manu jen pise, ze to nahrazuje momentalni retexec -- coz plati i v tomto pripade s xargs).

V kazdem pripade, kdyz ten retezec pojmenuju (napr. 'xxx'), tak uz to nefunguje (to "-t" a "--spider" lze vynechat. Je to tam jen pro moji kontrolu co dostava wget za vstup a aby se porad netahalo to same ze site. Wget neumi schema file:// a moje stanice nebezi web server):
... |xargs -ixxx -t wget --spider xxx
a stejne tak nefunguje
... |xargs -I xxx -t wget --spider xxx
Wget prestane rozumet mezeram v tom textu, takze pak ten vstup chape jako "url1%20-O%20name1" a navic se vola pro kazdy radek (tedy dvojici [url,name] ) zvlast, misto aby dostal vice url najednou.
prikaz -i\ -j -k foo
Kde berete lidi ty prepinace, kdyz v 'manu' nejsou?
3.6.2010 13:27 Ant
Rozbalit Rozbalit vše Re: xargs
Kde berete lidi ty prepinace, kdyz v 'manu' nejsou?
Ted jsem si uvedomil, ze to asi nebudou skutecne prepinace prikazu xargs, ale jen tak nejaka pismenka pro nazornost ('j' a 'k' nasleduje po 'i').
Fuky avatar 3.6.2010 12:17 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: xargs

Mějme skript processing.sh:

#! /usr/bin/env bash

echo "RUN"

i=1
while [ "$1" != "" ]; do
    echo "${i}. arg = $1"
    shift
    i=$(($i+1))
done

Prohlédni si výstupy:

$ pr -mTs" -O " urls names |xargs -i ./processing.sh {}
RUN
1. arg = https://www.example.com/1 -O one
RUN
1. arg = https://www.example.com/2 -O two
RUN
1. arg = https://www.example.com/3 -O three
$ pr -mTs" -O " urls names |xargs -I'{}' ./processing.sh {}
RUN
1. arg = https://www.example.com/1 -O one
RUN
1. arg = https://www.example.com/2 -O two
RUN
1. arg = https://www.example.com/3 -O three
$ pr -mTs" -O " urls names |xargs ./processing.sh
RUN
1. arg = https://www.example.com/1
2. arg = -O
3. arg = one
4. arg = https://www.example.com/2
5. arg = -O
6. arg = two
7. arg = https://www.example.com/3
8. arg = -O
9. arg = three

Volba -i je synonymum volby -I pokud je specifikován její argument tj. replace-str, jestliže specifikován není odpovídá -I'{}'.

Z ukázky je vidět, že první a druhé řešení jsou totožné a bash -c je použit kvůli tomu, že {} je jeden řetězec tj. kdyby se předal rovnou programu wget, tak by ho chápal celý jako URL. A právě Bash nám zařídí opětovné rozdělení jednotlivých argumentů v řetězci tj. URL -O OUTPUT_FILENAME.

Třetí řešení lze použít pouze pokud splníme dvě podmínky:

  • program musí umět zpracovat více stejných požadavků tj. v našem případě opakující se sekvenci URL -O OUTPUT_FILENAME
  • vstup nesmí být příliš velký, jinak vyčerpáme maximální možnou velikost argumentů příkazové řádky (ARG_MAX, maximum length of arguments for a new process)

Už je to jasnější?

3.6.2010 13:24 Ant
Rozbalit Rozbalit vše Re: xargs
Už je to jasnější?
Priklady 1 a 2 jsou presne ukazka toho, co uvadim ve svem prikladu vyse (tedy "slevami" parametru)
vstup nesmí být příliš velký, jinak vyčerpáme maximální možnou velikost argumentů příkazové řádky
Princip tohohle chapu. Zaroven si uvedomuji, ze tim svym "resenim" jsem si do toho primo vbehnul :-( Nejak jsem si myslel, ze prave xargs se postara o tom, abych ten limit nepretekl a ted si uvedomuji, ze ne.

Myslel jsem, ze podstatou je dostat co nejvice argumentu za prikaz, aby se nemusel vyvolat pro kazdy radek zvlast. Pritom s prikladu 1 a 2 s bashem to vypada, ze se bude wget volat pro kazdou sadu argumentu zvlast. U wgetu to pochopitelne zas az tak nevadi, ale kdyz si predstavim, ze je tam treba 'mv', 'rm', 'gzip' nebo 'tar x' ...

Budu se muset jeste jednou poradne zamyslet nad tim, co a proc bere xargs na svem vstupu jako jeden argument a proc to tak je. To take zodpovi muj udiv nad tim, ze xargs "nedokaze chapat ty parametry oddelene" a proc nejdou oddelit aniz by se musel volat Bash.

Dam si ted na par hodin pauzu :-)
Fuky avatar 3.6.2010 14:07 Fuky | skóre: 52 | blog: 4u
Rozbalit Rozbalit vše Re: xargs

Budu se muset jeste jednou poradne zamyslet nad tim, co a proc bere xargs na svem vstupu jako jeden argument a proc to tak je.

Jde jen o to, že když využiješ záložku (-I{}), tak se Ti všechny argumenty "slijou" dohromady v jeden tj. jako kdyby jsi vypsal všechny argumenty předané skriptu pomocí $@. A pak zbytečně spouštíme Bash, aby jsme tyto argumenty předali wgetu opět odděleně, takže to není příliš vhodné řešení. Můžeme snížit počet spouštěných procesů na polovičku, když nepoužijeme záložku:

$ pr -mTs" -O " urls names |xargs --max-lines=1 ./processing.sh
RUN
1. arg = https://www.example.com/1
2. arg = -O
3. arg = one
RUN
1. arg = https://www.example.com/2
2. arg = -O
3. arg = two
RUN
1. arg = https://www.example.com/3
2. arg = -O
3. arg = three

Co se týče ARG_MAX, tak jsem xargs podcenil, hlídá si velikost a pokud by byl překročen systémový limit (případně lze nastavit i menší hodnotu viz. níže), tak provede spuštění příkazu a pro data, která se nevešla spustí další instaci příkazu a tak stále dokola než zpracuje celý vstup:

$ pr -mTs" -O " urls names |xargs --max-chars=100 ./processing.sh
RUN
1. arg = https://www.example.com/1
2. arg = -O
3. arg = a1
4. arg = https://www.example.com/2
5. arg = -O
6. arg = a2
RUN
1. arg = https://www.example.com/3
2. arg = -O
3. arg = b3
4. arg = https://www.example.com/4
5. arg = -O
6. arg = b4
RUN
1. arg = https://www.example.com/5
2. arg = -O
3. arg = c5
4. arg = https://www.example.com/6
5. arg = -O
6. arg = c6

U wgetu to pochopitelne zas az tak nevadi, ale kdyz si predstavim, ze je tam treba 'mv', 'rm', 'gzip' nebo 'tar x' ...

Ano máš pravdu, např. pokud předpokládáš, že budeš mazat hodně souborů, tak není vhodné použít volbu -exec příkazu find, ale je lepší předat výstup -print na vstup xargs, který už sám zajistí minimální množství instací příkazu rm.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.