Portál AbcLinuxu, 6. května 2025 06:08
predstava: offline prehliadatelny, s obrazkami, s jednym korenovym adresarom.
--page-requisites
ale drzal by sa iba v urovni http://office.microsoft.com/cs-cz/excel
--no-parent
A pochopitelně spustit rekurzivně a asi i s --convert-links
nejako sa to brani. vytvoril mi robots.txt a stiahol iba jeden subor - default.aspx. skusil som sa zamaskovat pomocou navodu z wikipedie, ale stale stiahne iba jeden subor. pridavam parametre wgetu a log. robots.txt prikladam v prilohe, ak to pomoze.
wget -r -t 7 -w 5 --waitretry=14 --random-wait --pa ge-requisites --no-parent --convert-links --user-agent="Mozilla/5.0(Win dows; U; Windows NT 5.1; en-US; rv:1.8.0.1.) Gecko/20060111 Firefox/1.5 .0.1" -m -k -K -e robots=off http://office.microsoft.com/cs-cz/excel --18:35:53-- http://office.microsoft.com/cs-cz/excel => `office.microsoft.com/cs-cz/excel.1' Resolving office.microsoft.com... 64.4.52.30 Connecting to office.microsoft.com|64.4.52.30|:80... connected. HTTP request sent, awaiting response... 302 Found Location: http://office.microsoft.com/cs-cz/excel/default.aspx [followi ng] --18:35:57-- http://office.microsoft.com/cs-cz/excel/default.aspx => `office.microsoft.com/cs-cz/excel/default.aspx' Reusing existing connection to office.microsoft.com:80. HTTP request sent, awaiting response... 200 OK Length: 3,874 (3.8K) [text/html] Last-modified header missing -- time-stamps turned off. --18:36:04-- http://office.microsoft.com/cs-cz/excel/default.aspx => `office.microsoft.com/cs-cz/excel/default.aspx' Reusing existing connection to office.microsoft.com:80. HTTP request sent, awaiting response... 200 OK Length: 3,872 (3.8K) [text/html] 100%[===========================>] 3,872 --.--K/s 18:36:04 (194.55 KB/s) - `office.microsoft.com/cs-cz/excel/default.aspx ' saved [3872/3872] FINISHED --18:36:04-- Downloaded: 3,872 bytes in 1 files Converting office.microsoft.com/cs-cz/excel/default.aspx... 0-1 Converted 1 files in 0.000 seconds.>
Tak to vzdávám - díval jsem se na zdrojáky té stažené stránky (default.aspx
) a vypadá to, že je tam nějaký JavaScript, který přesměrovává stránku jinam - a to wget
nezvládne.
Myslím, že rekurzivní stahovaní umožňovalo i nějaké rozšíření pro Firefox (ale nevím, kde jsem ho viděl).
V pripade robots.txt by mohl pomoct parametr "-e robots=off" nebo ekvivalent ve forme zapisu radku "robots=offů do ~/.wgetrc
V pripade robots.txt by mohl pomoct parametr "-e robots=off" nebo ekvivalent ve forme zapisu radku "robots=off" do ~/.wgetrc
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.