Portál AbcLinuxu, 10. května 2025 03:24

Dotaz: Jak stahnout zdrojak web stranky v shellu a obejit kontrolu browseru

19.8.2007 22:05 Dan Maslowski
Jak stahnout zdrojak web stranky v shellu a obejit kontrolu browseru
Přečteno: 525×
Odpovědět | Admin
Ahoj,

potýkám se s jedním nepříjemným problémem při stahování webových stránek. Narazil jsem na stránky, které se jinak zobrazí v prohlížeči a jinak když je stáhnu pomocí nějakého jiného nástroje - například pomocí wget nebo modulů v perlu. Asi je to nějaká ochrana proti robotům, protože pokud stahuji stránku ze shellu, objeví se ve zdrojáku třeba tady tohle:

The server was unable to verify whether you are using legitimate browser to access this web site.

Jak mám zajistit, aby se mi stáhl stejný zdroják jako když stahuju normálně přes browser?

Díky...
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

19.8.2007 22:11 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: Jak stahnout zdrojak web stranky v shellu a obejit kontrolu browse
Odpovědět | | Sbalit | Link | Blokovat | Admin

V shellu to půjde opravdu těžko…

Pokud netrváte na shellovém řešení, pak zkuste nastavit hlavičky User-Agent, Referer a možná i nějaké cookies.

19.8.2007 23:05 Petr Holík
Rozbalit Rozbalit vše Re: Jak stahnout zdrojak web stranky v shellu a obejit kontrolu browse
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nejjednodussi postup se mi jevi tento:

1) Stahnete si nastroj NetCat

2) Nechte ho poslouchat na portu 80(nebo jinem volnem a pripojte se na nej prohlizcem (do adresy dejte http://vase.ip:port)

3) Uvidite pozadavek tak, jak ho posila prohlizec. Ulozte ho do souboru a upravete cast GET a cast HOST tak, aby odpovidala tomu, co chcete stahnout

4) Tento pozadavek opet prez NetCat poslete na ip serveru a odpoved ulozte do souboru

5) Odstrante ze soubouru prvnich par radek(HTTP hlavicku) (tail nebo head ci sed ...)

Tento postup bude fungovat za predpokladu, ze server se nepokousi nastavit cookie. Pokud by se o to snazil a tuto cookie kontroloval sahnul bych po Perlu(nebo Pythonu ci necem podobnem) - v bashi zbytecne slozite.

bazil avatar 19.8.2007 23:32 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Jak stahnout zdrojak web stranky v shellu a obejit kontrolu browse
Odpovědět | | Sbalit | Link | Blokovat | Admin
to tu nikdo nikdy neviděl manuál k wgetu ??? wteg umí jak cookies, tak user agenta ... --load-cookies --user-agent=agent-string ...
20.8.2007 11:47 Dan Maslowski
Rozbalit Rozbalit vše Re: Jak stahnout zdrojak web stranky v shellu a obejit kontrolu browse
Podařilo se, stačilo nastavit --load-cookies a --save-cookies. Díky

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.