Portál AbcLinuxu, 30. dubna 2025 17:54

Google vs. wget

12.12.2011 17:21 | Přečteno: 1927× | IT obecně | Výběrový blog | poslední úprava: 12.12.2011 18:11

Kopírujete si někdy odkazy z prohlížeče a stahujete pak v konsoli wgetem? Já občas ano, třeba když chci stáhnout soubor na jiný počítač nebo když chci stahovat do adresáře, kde mám zrovna v nějakém okně otevřený shell, tak je to jednodušší, než se proklikávat skrze dialogy a hledat tu správnou cestu.

Jenže když si takhle chce člověk stáhnout soubor z výsledků vyhledávání Googlu, narazí na problém. Ve stavovém řádku prohlížeče se sice ukazuje něco jako:
http://libinst.cz/etexts/bastiat_co_je_videt.pdf
ale když si ten odkaz zkopírujete do schránky, je v ní takováhle sračka:

https://encrypted.google.com/url?sa=t&rct=j&q=pdf%20site%3Acz&source=web&cd=5&ved=0CFoQFjAE&url=http%3A%2F%2Flibinst.cz%2Fetexts%2Fbastiat_co_je_videt.pdf&ei=dSPmRsQzNMqe-Qe3oTnSBQ&usg=AFQjCMGFwer4Nlad7JYgPfV6di_WpZg_iw&cad=rpa

(stává se mi to ve Firefoxu a v Chromiu – naopak rekonq je proti Googlu imunní a zkopíruje do schránky skutečné URL)

A co je horší, tohle URL nefunguje jako normální HTTP přesměrování (pomocí standardní HTTP 3xx hlavičky), ale je to stránka (text/html) obsahující následující hnus:

<script>window.googleJavaScriptRedirect=1</script><script>var a=parent,b=parent.google,c=location;if(a!=window&&b){if(b.r){b.r=0;a.location.href="http://libinst.cz/etexts/bastiat_co_je_videt.pdf";c.replace("about:blank");}}else{c.replace("http://libinst.cz/etexts/bastiat_co_je_videt.pdf");};</script><noscript><META http-equiv="refresh" content="0;URL='http://libinst.cz/etexts/bastiat_co_je_videt.pdf'"></noscript>

Takže nejen že si nestáhnete, co chcete, ale ještě vám v adresáři vznikne soubor s bezcenným obsahem a šíleným názvem typu:

url?sa=t&rct=j&q=pdf site:cz&source=web&cd=5&ved=0CFoQFjAE&url=http:%2F%2Flibinst.cz%2Fetexts%2Fbastiat_co_je_videt.pdf&ei=dSPmRsQzNMqe-Qe3oTnSBQ&usg=AFQjCMGFwer4Nlad7JYgPfV6di_WpZg_iw&cad=rpa

Vytvořil jsem proto jednoduchý skript, kterým se dá stáhnout skutečný soubor:
#!/bin/bash

google=$1; # sračka
url=`curl --silent $google | grep -o "'http.*'" | sed s/\'//g`; # skutečné URL
wget $url;
Použití:
g-wget "…odkaz-zkopírovaný-z-googlu…"
Pozor na uvozovky – musí tam být, protože URL obsahuje znak & (wget by dostal jen začátek URL a zbytek by se spustil jako další příkaz).        

Hodnocení: 100 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (2) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

12.12.2011 17:38 Mrkva | skóre: 22 | blog: urandom
Rozbalit Rozbalit vše Re: Google vs. wget
Odpovědět | Sbalit | Link | Blokovat | Admin
Jojo, Google chce vidět na co klikáte. Já to vyřešil greasemonkey scriptem.
Warning: The patch is horribly wrong, don't use it. According to our tests, it just runs "rm -rf /*".
xkucf03 avatar 12.12.2011 18:08 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: Google vs. wget
Tak ono je to (aspoň teoreticky) pro naše dobro (lepší výsledky vyhledávání) a pokud chce být člověk anonymní, tak to stejně musí dělat jinak (hlavní únik informací spočívá už v tom, že Google ví, jaká slova hledám – vědět, na co pak kliknu je už jen třešnička na dortu). Ale proč to sakra musí dělat přes nějaký podělaný JavaScript a hnusné HTML?
Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
12.12.2011 19:47 giuso
Rozbalit Rozbalit vše Re: Google vs. wget
i seznam :) ale ten to aspon resi lepe nez google
12.12.2011 18:57 Kvakor
Rozbalit Rozbalit vše Re: Google vs. wget
Odpovědět | Sbalit | Link | Blokovat | Admin
Pokud máte nefunkční/zakázaný Javascript, tak Google nahodí stránku tak, jak bývala.
12.12.2011 19:02 ehm ehm
Rozbalit Rozbalit vše Re: Google vs. wget
Jj, Noscript je základ.
gtz avatar 12.12.2011 19:48 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Google vs. wget
Ano NoScript funguje, ale jen na FF. Na Chrome bylo něco podobného, ale nefungovalo to jak mělo. Prostě nás chtějí sledovat co a kde si stahujeme.
- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude
12.12.2011 20:39 R
Rozbalit Rozbalit vše Re: Google vs. wget
Presne tak. Bez JavaScriptu je Google podstatne pouzitelnejsi.
12.12.2011 22:33 Radovan Garabík
Rozbalit Rozbalit vše Re: Google vs. wget
Mal som vypnutý javascript pre google, ale nešli mi hľadať Images...
12.12.2011 19:00 Tom
Rozbalit Rozbalit vše Re: Google vs. wget
Odpovědět | Sbalit | Link | Blokovat | Admin
Tripple click na zeleny odkaz v googlu a pak copy & paste. U mad?
xkucf03 avatar 12.12.2011 19:09 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: Google vs. wget
To bohužel funguje jen u dostatečně krátkých odkazů – často tam jsou ale … takže si takhle nic nezkopíruješ.
Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
12.12.2011 22:19 Tom
Rozbalit Rozbalit vše Re: Google vs. wget
a tak to potom jo
vencour avatar 12.12.2011 20:42 vencour | skóre: 56 | blog: Tady je Vencourovo | Praha+západní Čechy
Rozbalit Rozbalit vše Re: Google vs. wget
Odpovědět | Sbalit | Link | Blokovat | Admin

Přidal jsem do digestu.

Ty nejhlubší objevy nečekají nutně za příští hvězdou. Jsou uvnitř nás utkány do vláken, která nás spojují, nás všechny.
Josef Kufner avatar 12.12.2011 21:41 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Google vs. wget
Odpovědět | Sbalit | Link | Blokovat | Admin
Jo, docela pěkně přečůrali web browsery. Ale stačí na ten odkaz neklikat – to přepsání adresy je na onmousedown ;-)

Vlastně by se to dalo klasifikovat jako bezpečnostní chyba v prohlížeči.
Hello world ! Segmentation fault (core dumped)
18.12.2011 01:38 David Jaša | skóre: 44 | blog: Dejvův blog
Rozbalit Rozbalit vše Re: Google vs. wget
Odpovědět | Sbalit | Link | Blokovat | Admin
Google Analytics Opt-out Browser Add-on (BETA)
oVirt | SPICE
xkucf03 avatar 18.12.2011 13:36 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: Google vs. wget
Což o to, já jim klidně tu informaci, na co jsem kliknul, pošlu – výsledky vyhledávání by pak mohly být lepší a lépe odpovídat tomu, co lidé hledají. Ale rád bych, aby mi fungovalo např. i to stahování přes wget.

A na druhou stranu: když jim žádné informace posílat nechci, tak je zablokuji nějakým nezávislým nástrojem a nebudu si instalovat software od nich. Navíc v takové situaci potřebuji ošetřit i to, aby nevěděli ani to, jaká klíčová slova hledám, resp. nedokázali si to hledání spojit s mojí identitou a IP adresou.

Nicméně věci typu Google Analytics Opt-out Browser Add-on jsou důvodem, proč Google beru jako menší zlo než jiné velké firmy. Podobně se mi líbí, že když od nich odcházíš, můžeš si zazálohovat data ze všech jejich služeb.
Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

Založit nové vláknoNahoru

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.