Portál AbcLinuxu, 10. května 2025 05:26

Dotaz: Stahování s wget - zákaz přidávání suffixu index.html

17.7.2008 00:34 chalda
Stahování s wget - zákaz přidávání suffixu index.html
Přečteno: 625×
Odpovědět | Admin
Dobrý den,

rád bych si stáhnul fotografie ze serveru http://rajce.idnes.cz/ (napr. fotografie na strance http://baldug.rajce.idnes.cz/Kostym_inspirovany_polovinou_13.stol./). Pro tyto účely používám většinou program wget. Bohužel na stáhnutí dat z tohoto serveru jsem ale krátký. V této chvíli si myslím, že můj problém je v tom, že wget hledá v adresáři, kde by měla být data, soubor index.html. Server rajce.idnes.cz ale používá zřejmě nějaký mod_rewrite a každý odkaz je koncipován jako adresář. Tím pádem si wget "myslí", že se o adresář jedná a na konec cesty si přidá "index.html". Problém ale je, že takový adresář vůbec neexistuje, natož aby v něm nějaký soubor index.html byl. Wget tak končí neúspěchem.

zkoušel jsem příkaz: wget -r --convert-links -A*.jpg http://baldug.rajce.idnes.cz/Kostym_inspirovany_polovinou_13.stol./

Nemáte s podobným stahováním někdo zkušenosti? Nebo je možné donutit wget nepřídávat na konec cesty index.html? Je možné, že jsem próblem chybně prozkoumal, budu vděčný za jakýko-li nápad. díky
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

17.7.2008 02:46 lelool | skóre: 12
Rozbalit Rozbalit vše Re: Stahování s wget - zákaz přidávání suffixu index.html
Odpovědět | | Sbalit | Link | Blokovat | Admin
stránka práve nie je dostupná, ale wget sa mi zdá si neporadí s css. Teda asi to nepôjde.
17.7.2008 12:37 ondrej | skóre: 7 | blog: zvast
Rozbalit Rozbalit vše Re: Stahování s wget - zákaz přidávání suffixu index.html
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tak toto mi stiahlo tie fotky:
 let i=129; while [ $i -lt 268 ]; do wget http://img1.rajce.idnes.cz/d1/0/737/737522_a5fbd12d718dfac15083845b50d9c417/images/P1020$i.JPG; ((i++)); done
17.7.2008 12:42 Semo | skóre: 45 | blog: Semo
Rozbalit Rozbalit vše Re: Stahování s wget - zákaz přidávání suffixu index.html
Odpovědět | | Sbalit | Link | Blokovat | Admin
Podla mna to nie je problem wgetu ale http serveru na druhej strane, ktory ma nadefinovane, ze ak pride request na adresar, tak ma poslat subor index.html z toho adresara. Prinajmensom apache sa takto chova. Presne si to mozes overit, ze si ochytis komunikaciu a pozries sa ako vyzera.

Na jednom terminale si das netcat -l -p3000. A na druhom si das
wget http://localhost:3000/aaa
. Na prvom sa ti objavi http request od wgetu:
GET /aaa HTTP/1.0
User-Agent: Wget/1.11.1
Accept: */*
Host: localhost:3000
Connection: Keep-Alive
Ako vidis, wget pozaduje /aaa a nie /aaa/index.html.
If you hold a Unix shell up to your ear, you can you hear the C.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.