Portál AbcLinuxu, 6. května 2025 06:08

Dotaz: wget, rekurzivny download

xxxs avatar 7.10.2008 17:50 xxxs | skóre: 25 | blog: vetvicky
wget, rekurzivny download
Přečteno: 970×
Odpovědět | Admin
zdravim. snazim sa stiahnut kompletny manual k excelom z http://office.microsoft.com/cs-cz/excel .

predstava: offline prehliadatelny, s obrazkami, s jednym korenovym adresarom.

problem: ked neurcim urovne, stahuje mi to cely web, co nechcem. ak znizim uroven, nestiahne cely strom manualu a prida nejake dalsie odbocky do vyssich struktur.

predstavujem si to tak, ze by stahoval http://office.microsoft.com/cs-cz/excel/blabla kompletne cely, ale drzal by sa iba v urovni http://office.microsoft.com/cs-cz/excel. nesmie vyliezt ani do http://office.microsoft.com/cs-cz, ani do http://office.microsoft.com. zatial to proste funguje tak, ze asi najde v danej urovni nejake linky na vyssie urovne a postahuje aj tie.

uz som dogoogleny na smrt, aspon mi napiste, ci sa to vobec da poriesit. dik.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

7.10.2008 18:01 Vojtěch Horký | skóre: 39 | blog: Vojtův zápisník | Praha
Rozbalit Rozbalit vše Re: wget, rekurzivny download
Odpovědět | | Sbalit | Link | Blokovat | Admin
predstava: offline prehliadatelny, s obrazkami, s jednym korenovym adresarom.
--page-requisites
ale drzal by sa iba v urovni http://office.microsoft.com/cs-cz/excel
--no-parent

A pochopitelně spustit rekurzivně a asi i s --convert-links

I am always ready to learn although I do not always like to be taught. (W. Churchill)
xxxs avatar 7.10.2008 18:57 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: wget, rekurzivny download
Příloha:

nejako sa to brani. vytvoril mi robots.txt a stiahol iba jeden subor - default.aspx. skusil som sa zamaskovat pomocou navodu z wikipedie, ale stale stiahne iba jeden subor. pridavam parametre wgetu a log. robots.txt prikladam v prilohe, ak to pomoze.

wget -r -t 7 -w 5 --waitretry=14 --random-wait --pa
ge-requisites --no-parent --convert-links --user-agent="Mozilla/5.0(Win
dows; U; Windows NT 5.1; en-US; rv:1.8.0.1.) Gecko/20060111 Firefox/1.5
.0.1" -m -k -K -e robots=off http://office.microsoft.com/cs-cz/excel
--18:35:53--  http://office.microsoft.com/cs-cz/excel
           => `office.microsoft.com/cs-cz/excel.1'
Resolving office.microsoft.com... 64.4.52.30
Connecting to office.microsoft.com|64.4.52.30|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://office.microsoft.com/cs-cz/excel/default.aspx [followi
ng]
--18:35:57--  http://office.microsoft.com/cs-cz/excel/default.aspx
           => `office.microsoft.com/cs-cz/excel/default.aspx'
Reusing existing connection to office.microsoft.com:80.
HTTP request sent, awaiting response... 200 OK
Length: 3,874 (3.8K) [text/html]
Last-modified header missing -- time-stamps turned off.
--18:36:04--  http://office.microsoft.com/cs-cz/excel/default.aspx
           => `office.microsoft.com/cs-cz/excel/default.aspx'
Reusing existing connection to office.microsoft.com:80.
HTTP request sent, awaiting response... 200 OK
Length: 3,872 (3.8K) [text/html]

100%[===========================>] 3,872 --.--K/s

18:36:04 (194.55 KB/s) - `office.microsoft.com/cs-cz/excel/default.aspx ' saved [3872/3872]

FINISHED --18:36:04-- Downloaded: 3,872 bytes in 1 files Converting office.microsoft.com/cs-cz/excel/default.aspx... 0-1 Converted 1 files in 0.000 seconds.
>
7.10.2008 22:06 Vojtěch Horký | skóre: 39 | blog: Vojtův zápisník | Praha
Rozbalit Rozbalit vše Re: wget, rekurzivny download

Tak to vzdávám - díval jsem se na zdrojáky té stažené stránky (default.aspx) a vypadá to, že je tam nějaký JavaScript, který přesměrovává stránku jinam - a to wget nezvládne.

Myslím, že rekurzivní stahovaní umožňovalo i nějaké rozšíření pro Firefox (ale nevím, kde jsem ho viděl).

I am always ready to learn although I do not always like to be taught. (W. Churchill)
xxxs avatar 7.10.2008 23:40 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: wget, rekurzivny download
aj tak dakujem za pomoc.
8.10.2008 02:19 VM
Rozbalit Rozbalit vše Re: wget, rekurzivny download
Navigace musi fungovat i bez JavaScriptu, jinak je webmaster prase. Zrovna u Microsoftu by to vedet mohli.
Luboš Doležel (Doli) avatar 8.10.2008 00:00 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: wget, rekurzivny download
Prosím, nepoužívejte PRE k psaní textu a dělání odstavců (k tomu slouží P) a nepoužívejte CODE pro blokové výpisy kódu (k tomu slouží PRE).
16.3.2009 15:34 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: wget, rekurzivny download

V pripade robots.txt by mohl pomoct parametr "-e robots=off" nebo ekvivalent ve forme zapisu radku "robots=offů do ~/.wgetrc

xxxs avatar 16.3.2009 16:32 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: wget, rekurzivny download
ahoj, dakujem za zaujem a ozivenie starinky. vo vypise vidno, ze -e robots=off som, pouzil. stranka asi ale presahovala moznosti wgetu.
16.3.2009 15:35 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: wget, rekurzivny download

V pripade robots.txt by mohl pomoct parametr "-e robots=off" nebo ekvivalent ve forme zapisu radku "robots=off" do ~/.wgetrc

1.10.2011 19:35 KrataMil
Rozbalit Rozbalit vše Re: wget, rekurzivny download
Odpovědět | | Sbalit | Link | Blokovat | Admin
Taky jsem se s tim zabyval a zjistil jsem, ze ve vasem pripade to bude asi podobne jako u mne. Zadal jsem volbu --no-parent ale stale stahoval vse a pak mne napadlo na konec dat jeste jedno lomitko a wget opravdu zustal tam kde mel a nesel vys. Ve vasem pripade bude dobre tedy nedavat adresu http://office.microsoft.com/cs-cz/excel ale dat adresu http://office.microsoft.com/cs-cz/excel/

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.