Portál AbcLinuxu, 27. dubna 2024 01:50


Dotaz: stažení zaheslovaných web stránek

23.11.2011 21:13 archlinux
stažení zaheslovaných web stránek
Přečteno: 438×
Odpovědět | Admin
Potřeboval bych si stáhnout obsah stránek, které jsou přístupné pouze pod heslem. Na těch stránkách je text, který je mi volně dostupný , když se přihlásím, ale nedokážu ho stáhnout,třeba pomocí wget . Chci z něj udělat jeden pdf soubor, pro snadnost vyhledávání v textu, ale procházet a kopírovat dvěstě stran mi příjde zdlouhavé. Můžete mi nějak poradit?Jak na to?
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

23.11.2011 21:20 NN
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
Odpovědět | | Sbalit | Link | Blokovat | Admin
curl ?

NN
23.11.2011 21:24 archlinux
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
díky , nejsem linuxový specialista, kdyby jste byl tak hodný a napsal mi nějaký příkaz, já si klidně dosadím název webu , heslo..
23.11.2011 21:46 chrono
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
To, ako by taký príkaz vyzeral, záleží od spôsobu prihlasovania.
23.11.2011 22:09 archlinux
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek

je tam klasický přihlašovací dialog s kolonkami jméno a heslo

zkoušel jsem taky wget -rc --http-user=uzivatel --http-password=heslo http://www.stranka.cz ale taky bez úspěchu

Dreit avatar 23.11.2011 22:43 Dreit | skóre: 15 | blog: Dreit a jeho dračí postřehy | Královehradecký kraj
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
Odpovědět | | Sbalit | Link | Blokovat | Admin

Jde z nich tisknout? Napadlo mě nainstalovat balík cups-pdf (v Debianu to tak je, jinde se může lišit), vytvořit PDF tiskárnu a pak to na ní vytisknout.

Nope
23.11.2011 23:15 archlinux
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
ano to jde, ale musel bych to udělat na každé stránce zvlášť, ale stále doufám že něčím všechny stránky najednou stáhnu a pak převedu do pdf (ale kdybych nedoufal a začal klikat, možná už bych byl hotov :)) )
23.11.2011 23:08 ET
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
Odpovědět | | Sbalit | Link | Blokovat | Admin
podle nepovedenyho
wget -rc --http-user=uzivatel --http-password=heslo http://www.stranka.cz
to vypada ze se nepouziva http-auth, takze zkus tohle:

# Log in to the server. This can be done only once. wget --save-cookies cookies.txt --post-data 'user=foo&password=bar' http://server.com/auth.php

# Now grab the page or pages we care about. wget --load-cookies cookies.txt -p http://server.com/interesting/article.php

xkucf03 avatar 23.11.2011 23:53 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
+1

Jen doplním, že pole user a password se můžou jmenovat i nějak jinak – je potřeba se kouknout do zdrojáku HTML, jak se jmenují políčka ve formuláři.

A další možnost je, když už je člověk přihlášený v prohlížeči, tak odtamtud zkopírovat cookie a předat wgetu.
Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
24.11.2011 14:23 archlinux
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
neumím stáhnout cookies, pořád je to prázdný soubor , pouze s
# HTTP cookie file.
# Generated by Wget on 2011-11-24 14:15:43.
# Edit at your own risk.
když otevřu ./config/chromium/default/cookies tak tam jsou znaky, které nejdou identifikovat.. čím bych to měl otevřít?
24.11.2011 14:36 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: stažení zaheslovaných web stránek
To je ta přihlašovací stránka tak tajná, že by jsme se jukly a dali dohromady parametry pro přihlášení a když se to podaří, tak zjistily jak si udržuje session?
Pokud ji sdělíte, myslím, že to půjde rychleji:-)
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.