abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 15:55 | Komunita

    O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.

    Ladislav Hagara | Komentářů: 0
    včera 15:44 | Komunita

    Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

    … více »
    Ladislav Hagara | Komentářů: 16
    včera 15:22 | IT novinky

    Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

    Ladislav Hagara | Komentářů: 12
    5.12. 17:11 | IT novinky

    Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

    Ladislav Hagara | Komentářů: 28
    5.12. 15:11 | IT novinky

    Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

    Ladislav Hagara | Komentářů: 2
    5.12. 14:11 | IT novinky

    V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.

    Ladislav Hagara | Komentářů: 0
    5.12. 00:33 | Nová verze

    Firma Proxmox vydala novou serverovou distribuci Datacenter Manager ve verzi 1.0 (poznámky k vydání). Podobně jako Virtual Environment, Mail Gateway či Backup Server je založená na Debianu, k němuž přidává integraci ZFS, webové administrační rozhraní a další. Datacenter Manager je určený ke správě instalací právě ostatních distribucí Proxmox.

    |🇵🇸 | Komentářů: 10
    4.12. 23:44 | Nová verze

    Byla vydána nová verze 2.4.66 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 5 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    4.12. 14:00 | IT novinky

    Programovací jazyk JavaScript (Wikipedie) dnes slaví 30 let od svého oficiálního představení 4. prosince 1995.

    Ladislav Hagara | Komentářů: 1
    4.12. 04:22 | Bezpečnostní upozornění

    Byly zveřejněny informace o kritické zranitelnosti CVE-2025-55182 s CVSS 10.0 v React Server Components. Zranitelnost je opravena v Reactu 19.0.1, 19.1.2 a 19.2.1.

    Ladislav Hagara | Komentářů: 3
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (48%)
     (19%)
     (17%)
     (22%)
     (15%)
     (24%)
     (16%)
     (18%)
    Celkem 435 hlasů
     Komentářů: 18, poslední 2.12. 18:34
    Rozcestník

    Google nerado wget

    18.8.2009 16:13 | Přečteno: 1805× | Zo sveta

    Google cache nejde tahat wget-om alebo curl-om. Staci ale zmenit user agent a uz nie je problem. Lubovolny nahodny user agent retazec je postacjuci.

    Soudruzi z Google si pravdepodobne uzmysleli, ze ochrania svoju cache databazu pred hromadnym stahovanim. Tak filtruju pristup k nej podla toho ci polozka user-agent v HTTP hlavicke obsahuje retazec wget alebo curl. Ak neobsahuje, tak poslu obsah. Ak hej, tak vratia "403 Forbidden".

    Cache sa da vyhladat zadanim do google vyhladavacieho policka "cache:<url>". Napr. cache:http://www.abclinuxu.cz. Presmeruje to na nejaky server z Google clustru a posle naspat stranku ako ju google-bot videl pri poslednej navsteve.

    Whitelist browserov by som mozno este pochopil (aj ked je uplne rovnako na nic), ale blacklist nechapem uabsolutne. 90% ludi, ktori uz vedia spustit wget, vedia aj zmenit user-agent.
    $ wget --user-agent wge 'http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8'
    --2009-08-18 16:00:46--  http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8
    Connecting to 209.85.129.132:80... connected.
    HTTP request sent, awaiting response... 200 OK
    Length: unspecified [text/html]
    Saving to: `search?client=opera&rls=en&hl=en&q=cache:http:%2F%2Fwww.abclinuxu.cz%2F&sourceid=opera&num=25&ie=utf-8&oe=utf-8.1'
    
        [ <=>                                                                                              ] 91,817       526K/s   in 0.2s
    
    2009-08-18 16:00:47 (526 KB/s) - `search?client=opera&rls=en&hl=en&q=cache:http:%2F%2Fwww.abclinuxu.cz%2F&sourceid=opera&num=25&ie=utf-8&oe=utf-8.1' saved [91817]
    
    $ wget 'http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8'
    --2009-08-18 16:00:50--  http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8
    Connecting to 209.85.129.132:80... connected.
    HTTP request sent, awaiting response... 403 Forbidden
    2009-08-18 16:00:51 ERROR 403: Forbidden.
    
    $ wget --user-agent curl 'http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8'
    --2009-08-18 16:03:44--  http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8
    Connecting to 209.85.129.132:80... connected.
    HTTP request sent, awaiting response... 403 Forbidden
    2009-08-18 16:03:45 ERROR 403: Forbidden.
    
    $ wget --user-agent cur 'http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8'
    --2009-08-18 16:03:49--  http://209.85.129.132/search?client=opera&rls=en&hl=en&q=cache:http://www.abclinuxu.cz/&sourceid=opera&num=25&ie=utf-8&oe=utf-8
    Connecting to 209.85.129.132:80... connected.
    HTTP request sent, awaiting response... 200 OK
    Length: unspecified [text/html]
    Saving to: `search?client=opera&rls=en&hl=en&q=cache:http:%2F%2Fwww.abclinuxu.cz%2F&sourceid=opera&num=25&ie=utf-8&oe=utf-8.2'
    
        [ <=>                                                                                              ] 91,817       523K/s   in 0.2s
    
    2009-08-18 16:03:49 (523 KB/s) - `search?client=opera&rls=en&hl=en&q=cache:http:%2F%2Fwww.abclinuxu.cz%2F&sourceid=opera&num=25&ie=utf-8&oe=utf-8.2' saved [91817]
           

    Hodnocení: 93 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Limoto avatar 18.8.2009 17:27 Limoto | skóre: 32 | blog: Limotův blog
    Rozbalit Rozbalit vše Re: Google nerado wget

    Blik! Jinak není to jenom google cache, je to snad všechno od googlu (a není to jenom wget, nebere to třeba ani urllib)

    18.8.2009 23:13 Tomas
    Rozbalit Rozbalit vše Re: Google nerado wget
    Otazka znie preco...
    18.8.2009 23:44 Semo | skóre: 45 | blog: Semo
    Rozbalit Rozbalit vše Re: Google nerado wget
    Ha fakt, skoro vsetko. Ane neviem preco som si to nevsimol. Asi preto ze hlavna stranka ide ok.
    If you hold a Unix shell up to your ear, you can you hear the C.
    hikikomori82 avatar 18.8.2009 18:42 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Google nerado wget
    Dobre rano stara mama. Číta tu niekto vôbec moje blogy?

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.