abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 14:33 | Zajímavý projekt

Blender Animation Studio zveřejnilo první epizodu z připravovaného animovaného seriálu The Daily Dweebs o domácím mazlíčkovi jménem Dixey. Ke zhlédnutí také ve 3D s rozlišením 8K.

Ladislav Hagara | Komentářů: 0
dnes 12:34 | Komunita

Aktualizovanou počítačovou hru Warhammer 40,000: Dawn of War III v ceně 39,99 eur běžící také na Linuxu lze o víkendu na Steamu hrát zdarma a případně ještě v pondělí koupit s 50% slevou. Do soboty 19:00 lze na Humble Bundle získat zdarma Steam klíč k počítačové hře Sid Meier's Civilization® III v ceně 4,99 eur běžící také ve Wine.

Ladislav Hagara | Komentářů: 0
dnes 00:22 | Nasazení Linuxu

Společnost Samsung oznámila, že skrze dokovací stanici DeX a aplikaci Linux on Galaxy bude možno na Samsung Galaxy S8 a S8+ a Galaxy Note 8 provozovat Linux. Distribuce nebyly blíže upřesněny.

Phantom Alien | Komentářů: 10
včera 23:55 | Komunita

Společnost Purism na svém blogu oznámila, že její notebooky Librem jsou nově dodávány se zrušeným (neutralized and disabled) Intel Management Engine (ME). Aktualizací corebootu na již prodaných noteboocích lze Management Engine také zrušit. Více v podrobném článku.

Ladislav Hagara | Komentářů: 0
včera 21:44 | Nová verze

Organizace Apache Software Foundation (ASF) na svém blogu slaví páté výročí kancelářského balíku Apache OpenOffice jako jejího Top-Level projektu. Při této příležitosti byl vydán Apache OpenOffice 4.1.4 (AOO 4.1.4). Podrobnosti v poznámkách k vydání. Dlouhé čekání na novou verzi tak skončilo.

Ladislav Hagara | Komentářů: 6
včera 19:22 | Pozvánky

Již příští týden - 26. a 27. října se v Praze v hotelu Olšanka odehraje OpenWRT Summit. Na webu konference naleznete program a možnost zakoupení lístků - ty stojí 55 dolarů. Čtvrtek bude přednáškový a v pátek se budou odehrávat převážně workshopy a meetingy.

Miška | Komentářů: 1
včera 13:44 | Nová verze

Bylo vydáno Ubuntu 17.10 s kódovým názvem Artful Aardvark. Ke stažení jsou Ubuntu Desktop a Server, Ubuntu Cloud Images, Ubuntu Netboot, Kubuntu, Lubuntu a Lubuntu Alternate, Lubuntu Next, Ubuntu Budgie, Ubuntu Kylin, Ubuntu MATE, Ubuntu Studio a Xubuntu. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 22
včera 13:00 | Komunita

MojeFedora.cz informuje, že Fedora 27 dostane podporu pro AAC. Podpora multimediálních formátů je ve výchozí instalaci Fedory tradičně limitovaná kvůli softwarovým patentům, ale desktopový tým Red Hatu se ji i tak snaží v poslední době co nejvíce rozšířit. Už nějaký čas obsahuje kodeky pro MP3, H.264, AC3 a nyní byl přidán také kodek pro další velmi rozšířený zvukový formát – AAC.

Ladislav Hagara | Komentářů: 2
18.10. 23:55 | Pozvánky

Spolek OpenAlt zve příznivce otevřených technologií a otevřeného přístupu na 145. brněnský sraz, který proběhne v pátek 20. října od 18:00 hodin v restauraci Time Out na adrese Novoměstská 2 v Řečkovicích. Jedná se o poslední sraz před konferencí OpenAlt 2017, jež proběhne o víkendu 4. a 5. listopadu 2017 na FIT VUT v Brně. Běží registrace účastníků.

Ladislav Hagara | Komentářů: 0
18.10. 21:44 | Nová verze

Byla vydána verze 5.2.0 multiplatformního virtualizačního nástroje Oracle VM VirtualBox. Jedná se o první stabilní verzi z nové větve 5.2. Z novinek lze zmínit například možnost exportování VM do Oracle Cloudu, bezobslužnou instalaci hostovaného systému nebo vylepšené GUI. Podrobnosti v seznamu změn. Aktualizována byla také dokumentace.

Ladislav Hagara | Komentářů: 2
Jak se vás potenciálně dotkne trend odstraňování analogového audio konektoru typu 3,5mm jack z „chytrých telefonů“?
 (11%)
 (1%)
 (1%)
 (1%)
 (74%)
 (12%)
Celkem 139 hlasů
 Komentářů: 7, poslední včera 23:06
    Rozcestník

    Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy

    19.2.2011 11:07 | Přečteno: 1331× | Linux | poslední úprava: 20.2.2011 14:48

    Zaujal mě extrémní traffic do zahraničí a pátral jsem po jeho původu.

    Za poslední měsíc na můj skromný webík přibyl jenom jeden malý zvukový záznam, který si stáhlo asi 16 lidí. Přesto má přenos do zahraničí v řádu desítek GB, což už pomalu překračuje představy ISP.

    Pátral jsem proto, proč má web s materiály v češtině takový traffic do zahraničí (do NIXu máme data skoro zadarmo). Po přechroustání logu krátkým skriptem jsem to zjistil:

    ::ffff:67.195.115.53 video.hrach.eu - [18/Feb/2011:15:26:16 +0100] "GET /video/scf10/soufflot-access-for-enterprise.ogg HTTP/1.0" 200 63697400 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [18/Feb/2011:18:13:11 +0100] "GET /video/sprava_serveru.webm HTTP/1.0" 200 129259872 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [18/Feb/2011:21:18:45 +0100] "GET /video/scf10/diskuze.webm HTTP/1.0" 200 120367707 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [18/Feb/2011:23:46:32 +0100] "GET /robots.txt HTTP/1.0" 404 345 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [18/Feb/2011:23:52:33 +0100] "GET /video/editory.mkv HTTP/1.0" 200 120202635 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [19/Feb/2011:07:58:56 +0100] "GET /video/scf10/malec-elektronicke-pasy.ogg HTTP/1.0" 200 119739224 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [19/Feb/2011:10:25:38 +0100] "GET /robots.txt HTTP/1.0" 404 345 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.53 video.hrach.eu - [19/Feb/2011:10:31:39 +0100] "GET /video/scf10/klupka-multiplikacni-cipove-karty.ogg HTTP/1.0" 200 128473992 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    

    Crawler Yahoo opakovaně tahá všechny videozáznamy! Jeho IP se navíc co 14 dní mění, ale vždy je z rozsahu Yahoo. Od 25. července 2010 přenesl neuvěřitelných 164 GB (!!!), což je polovina celkového přenosu.

    Ostatní crawlery se vždycky na ten soubor zeptají, a když jim přijde Content-Type: video/mp4 nebo podobná hlavička, tak spojení přeruší a už tam nelezou.

    Crawlování adresáře /video jsem zakázal v robots.txt, a pokud to nepomůže, přidám zajímavé pravidlo do firewallu.

    Pokud provozujete nějaký stahovací web, mirror linuxové distribuce nebo něco podobného, zvažte bloknutí takovýchto neřádů. Možná, že máte obrovský drahý traffic do zahraničí úplně zbytečně.

    Yahoo leze i na mirror ArchLinuxu a tahá balíčky, za posledních 11 dní (déle se tam neloguje) protáhlo 15 giga.

    Update: Pokud vám nevadí, že si robot stáhne každý soubor jenom jednou, zkontrolujte si, že posíláte hlavičky Last-Modified a ETag. Například LigHTTPd je totiž neposílá, pokud u souboru nezná mime typ. Viz diskuzi u komentáře #14.

           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    Jendа avatar 19.2.2011 11:48 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Kdyby někoho zajímalo, ze kterých IP tam ten robot lezl:
    67.195.111.154
    67.195.111.186
    67.195.112.43
    67.195.112.48
    67.195.115.121
    67.195.115.53
    67.195.115.55
    67.195.115.87
    67.195.37.187
    72.30.142.215
    19.2.2011 12:26 xkomczax | skóre: 50 | blog: proste_blog
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    A lidi v Yahoo to neštve? Přeci jenom, při představě, kolik dat musí stáhnout prolézá-li celý web... Co takto napsat někomu přímo do Yahoo, nemělo by to smysl?
    otasomil avatar 19.2.2011 14:14 otasomil | skóre: 36 | blog: puppylinux
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy

    Dival jsem se na Vas osobni web a tak se ptam jak jste spokojen s hostingem od http://www.000webhost.com/

    Zda vyuzivate free variantu a nebo jste neco priplatil za sluzby navic.

     

    Kdysi jsem se zminoval v blogu o tomto poskytovateli.

    K čemu hudba, která nevede k extázi... Stop MDMA !!! Už je to víc jak 50 let: http://buxlrerulbak7g3e.onion/
    19.2.2011 14:23 Alexandra Pokorná | blog: zapisy_vyzrale_zeny
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Přestože nejsem autorkou předchozího komentáře 000webhost jsem zkoušela. Severy byly docela pomalé a docházelo k častým výpadkům a to především databáze, která často nešla i několik hodin. Dost závisí na jaký server Vás posadí. Pro Evropanku jako já je téměř dokonalý, protože hodiny nejvyššího zatížení webů ve SSA se liší od těch našich a tak nemohu než doporučit.
    20.2.2011 18:29 xkomczax | skóre: 50 | blog: proste_blog
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    O blogu vím, z něj jsem se taky k 000webhost.com dostal ;-) Takže alespoň dodatečně díky za ten zápis :-)
    Používám free variantu a jsem s ní... no... vzhledem k tomu, že nic lepšího neznám, tak spokojen :-) Ale jak již psala Alexandra Pokorná přede mnou, s rychlostí to není nic moc extra. Jak kdysi napsal jistý člověk, kterému jsem tam uložil jeden soubor: "Chovalo se to, jako by server byl za ADSL a dvěma WiFinami :-)" (doufám, že tomu dotyčnému zveřejnění této části mailu nevadí...). Výpadky občas bývají, to je pravda, ale nevidím to s nimi nikterak černě.
    Co mne tak trochu mrzí, tak je nabídka v jejich administračním rozhraní, která toho na první pohled slibuje hodně, ale polovina věcí (dobře, tak méně než polovina, ale...) nefunguje. Konkrétně instalace přes Fantastico Autoinstaller a statistiky. Takže shrnutí: není to nic moc extra, ale na těch mých pár fotek a nějakou tu statickou webovku je to myslím až moc dobré ;-) Ale pokud by jsi věděl (doufám, že tykání nevadí, pokud ano, tak se omlouvám...) o něčem lepším, tak sem s tím! ;-)
    A mimochodem, proč se ptáš? Zjišťuješ, zda-li to nefunguje na 100% jenom Tobě či zda-li s tím mají problémy i ostatní nebo máš návrh na nějakou lepší službu? Či jenom tak se ptáš? Já jen že mne ta otázka dost překvapila, pokud nechceš, nemusíš odpovídat... ;-)
    Jendа avatar 19.2.2011 14:27 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    A lidi v Yahoo to neštve? Přeci jenom, při představě, kolik dat musí stáhnout prolézá-li celý web...
    Také mi to přišlo fascinující. Mimochodem, má-li tu někdo nějaký podobný web (balíčky, video, audio) a loguje, kouknul by se, jestli tohle postihlo selektivně vpsFree, nebo je to i jinde? Zkusím se ještě zeptat adminů z mirroru na ČVUT, jestli si něčeho takového také nevšimli.
    Co takto napsat někomu přímo do Yahoo, nemělo by to smysl?
    Jo, dobrý nápad, o něčem porozmýšlím. Jinak podobné problémy očividně mají i tady a tady (co jsem tak rychle vygooglil).
    Jendа avatar 19.2.2011 22:05 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Zkusím se ještě zeptat adminů z mirroru na ČVUT, jestli si něčeho takového také nevšimli.
    Tak ze Silicon Hill Mirroru také stahuje, a to velmi - kolem 8000 requestů za den. Povšimněte si, prosím, že stahuje, i když jejich server normálně posílá ETag, Last-Modified i Age.
    Překládám ftp.sh.cvut.cz… 147.32.127.222, 2001:718:2::222
    Navazuje se spojení s ftp.sh.cvut.cz|147.32.127.222|:80… spojeno.
    HTTP požadavek odeslán, program čeká na odpověď… 
      HTTP/1.0 200 OK
      Date: Sat, 19 Feb 2011 08:16:20 GMT
      Server: Apache/2.2.9 (Debian) PHP/5.2.6-1+lenny9 with Suhosin-Patch
      Last-Modified: Mon, 22 Nov 2010 11:53:15 GMT
      ETag: "1033-2bc9b800-495a2e6b980c0"
      Accept-Ranges: bytes
      Content-Length: 734640128
      Content-Type: application/x-iso9660-image
      Age: 45834
      X-Cache: HIT from ftp.sh.cvut.cz
      X-Cache-Lookup: HIT from ftp.sh.cvut.cz:80
      Via: 1.1 ftp.sh.cvut.cz:80 (squid)
      Connection: keep-alive
    Délka: 734640128 (701M) [application/x-iso9660-image]
    19.2.2011 23:17 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Jak vypadá druhý požadavek od toho robota? V něm nejsou hlavičky If-Modified-Since nebo If-Match? Pokud tam jsou, a server stejně pošle celý soubor, je to chyba serveru.
    Jendа avatar 19.2.2011 23:46 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    To bohužel nevím, protože admin mirroru na SH mi ukázal jenom tenhle a mě ještě od zapnutí logování kompletních požadavků robot nenavštívil. Nicméně například na jiném webu, kam už robot přišel, to vypadalo takhle:
    2011-02-19 22:15:11: (request.c.294) fd: 9 request-len: 309 
    GET /styl.css HTTP/1.0
    Host: blok.hrach.eu
    User-Agent: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    Accept: text/css,*/*;q=0.1
    Accept-Language: en-us,en;q=0.5
    Accept-Encoding: gzip
    Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
    Referer: http://blok.hrach.eu/
    
    Na což server samozřejmě odpoví 200 a pošle celý styl.
    19.2.2011 19:59 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Řekl bych, že to lidi z Yahoo štve. Ale co s tím mají dělat – psát každému, kdo má blbě nastavený web server? Nebo implementovat křišťálovou kouli, ze které vyvěští ty informace, které zapomněl nastavit správce webu?
    pavlix avatar 19.2.2011 20:04 pavlix | skóre: 54 | blog: pavlix
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Kdybyste místo těch vašich obvyklých žvástu uvedl nějakou skutečnou informaci, udělal byste líp.
    19.2.2011 12:46 kik
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Nezjišťují náhodou, jestli nepřechováváš to ošklivé "kindr pr0n"? :-)
    19.2.2011 12:46 kik
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    "k!ndr"
    19.2.2011 14:46 SPM | skóre: 28
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Napsat abuse :)) Jinak jsem se koukal do access logu svýho apache, kde je těch pár .deb balíčků... z těhlech rozsahů je tahá něco taky, ikdyž naposled to bylo 14. takže asi ne tak často
    GeoRW avatar 19.2.2011 15:31 GeoRW | skóre: 13 | blog: GeoRW | Bratislava
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    ja na download odkazy pouzivam atribut rel="nofollow" odkedy mi podobne robil aj Google crawler (aj ked to boli .zip subory); odvtedy ziaden problem so ziadnym crawlerom
    "This is to be taken with a grain of salt." ACBF - Advanced Comic Book Format
    Jiří Němec avatar 19.2.2011 15:38 Jiří Němec | skóre: 22 | blog: BluPix | Horní Smrčné
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Co takhle zkontrolovat jestli ten hosting správně posílá etagy? Jestli když sedí, tak pošle jen 304 a neposílá data? Je tam správně definovaný datum expirace? Nedaří se mi dostat z YSlow ani z Page Speed informace přímo o těch videích, ale zbytek webu stále posílá 200 i veškerý obsah i když nedošlo k žádné změně obsahu. Čas expirace tam není nastaven.
    Spock: "Logic, logic, logic. Logic is the beginning of wisdom, not the end.
    Jendа avatar 19.2.2011 20:02 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    304 si robot nechal poslat jenom několikrát.
    ::ffff:67.195.115.55 video.hrach.eu - [18/Jun/2010:01:10:49 +0200] "GET /video/vasut1.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.55 video.hrach.eu - [31/May/2010:17:01:29 +0200] "GET /video/scf10/scf-uvod.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.112.43 video.hrach.eu - [26/May/2010:17:29:31 +0200] "GET /video/vasut2.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.112.43 video.hrach.eu - [27/May/2010:02:56:06 +0200] "GET /video/vasut2.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:72.30.142.215 video.hrach.eu - [19/Nov/2010:17:42:27 +0100] "GET /video/vasut1.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:72.30.142.215 video.hrach.eu - [20/Nov/2010:02:06:21 +0100] "GET /video/scf10/malec-elektronicke-pasy.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:72.30.142.215 video.hrach.eu - [20/Nov/2010:15:56:26 +0100] "GET /video/vasut2.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.121 video.hrach.eu - [22/Nov/2010:11:11:03 +0100] "GET /video/vasut2.ogg HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    ::ffff:67.195.115.121 video.hrach.eu - [19/Dec/2010:04:27:05 +0100] "GET /video/scf10/soufflot-access-for-enterprise.webm HTTP/1.0" 304 0 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
    Etagy jsem zapnul (díky za tip), v lighttpd byly defaultně vypnuté.
    gtz avatar 19.2.2011 15:52 gtz | skóre: 27 | blog: merlins | Brno - Venkov / Rosicko
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    U Yahoo i u Google tohle bylo zcela normální, že se snažil indexovat to co je na webu. Nakonec se tyto služby zakázaly na firewallu a byl pokoj.
    - nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude
    Jendа avatar 19.2.2011 20:05 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Ne, GoogleBot i SeznamBot stáhnou vždycky jenom začátek souboru, a když zjistí, že tento obsah nechtějí, už ho znova netahají. Opakovaně tahá celý soubor jenom Yahoo.
    Josef Kufner avatar 19.2.2011 16:39 Josef Kufner | skóre: 67
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Napiš do /robots.txt patřičná pravidla a budeš mít pokoj.
    Hello world ! Segmentation fault (core dumped)
    Jendа avatar 19.2.2011 20:06 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    No to jsem už udělal. Píšu o tom hlavně proto, že mě nenapadlo, že by takový problém mohl nastat, a třeba tím někomu dalšímu ušetřím zahraniční konektivitu.
    19.2.2011 19:36 pc2005 | skóre: 34 | blog: GardenOfEdenConfiguration | liberec
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Hmmm zajímalo by mě kolik threadů dokáže ten robot spustit. Nechcete někdo exportovat /dev/urandom ? :-D
    Chuck Norris řekl babičce, že si dá jen 3 knedlíky. A dostal 3 knedlíky. | 帮帮我,我被锁在中国房
    19.2.2011 19:56 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    To je jak zprávy rádia Jerevan.

    Když váš server nedokáže správně odpovědět na hlavičky If-Modified-Since nebo If-Match (na tu odpovědět nemůže, když ani neposílá E-tag), nemá klient jinou možnost, jak zjistit, zda nedošlo ke změně, než stáhnout celý soubor znova.

    Pokud chcete robotům zakázat stahování nějaký souborů použijte /robots.txt.

    Zakazování přístupu robotům na firewallu je nesmysl, robot může za chvíli chodit z jiné adresy, nebo přijde jiný robot. A hlavně ten robot nedělá nic špatného, chyba (a ne jedna) je jen na vaší straně.
    pavlix avatar 19.2.2011 20:06 pavlix | skóre: 54 | blog: pavlix
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Když váš server nedokáže správně odpovědět na hlavičky If-Modified-Since nebo If-Match (na tu odpovědět nemůže, když ani neposílá E-tag), nemá klient jinou možnost, jak zjistit, zda nedošlo ke změně, než stáhnout celý soubor znova.
    A, tak přecejenom, teď už můžete s klidem zapomenout, co jsem napsal k vašemu předchozímu příspěvku.
    Jendа avatar 19.2.2011 21:45 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Když váš server nedokáže správně odpovědět na hlavičky If-Modified-Since
    V některých případech (*.webm) skutečně nedokázal, bug, opraveno (děkuju za upozornění). Ale Slurp vesele stahoval i všechno ostatní, kde se tahle hlavička posílala - Slurp totiž do požadavku hlavičku If-Modified-Since vůbec nevkládá.
    nebo If-Match (na tu odpovědět nemůže, když ani neposílá E-tag)
    No, to je pravda, nechápu, proč to bylo ve výchozím nastavení vypnuté.
    nemá klient jinou možnost, jak zjistit, zda nedošlo ke změně, než stáhnout celý soubor znova
    Koukám, že lighttpd je v tomhle pěkně rozbitý software (klidně vnutí klientovi typ souboru, který si nevyžádal v Accept, místo aby hodil 406), ale - opět - stejně bych si nepomohl, Slurp posílá v Accept i *. Podle mě by bylo mnohem vhodnější, kdyby si skutečně vyžádal jenom ty typy souborů, které indexuje.
    Pokud chcete robotům zakázat stahování nějaký souborů použijte /robots.txt.
    To jsem hned udělal, čekám, až si ten soubor znovu vyžádá (na mirroru Archlinuxu už to udělal a už to celé nestahuje).
    Zakazování přístupu robotům na firewallu je nesmysl, robot může za chvíli chodit z jiné adresy, nebo přijde jiný robot.
    Jasně, to mělo být dočasné řešení, protože o robots.txt žádá jenom občas (teď koukám do logu, že tak obden).

    Doufám, že tenhle zápisek a váš komentář alespoň někomu pomůže.
    19.2.2011 23:29 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Ale Slurp vesele stahoval i všechno ostatní, kde se tahle hlavička posílala - Slurp totiž do požadavku hlavičku If-Modified-Since vůbec nevkládá.
    Vzhledem k tomu, že váš server posílá aktuální datum a čas, by ta hlavička stejně byla k ničemu.
    Podle mě by bylo mnohem vhodnější, kdyby si skutečně vyžádal jenom ty typy souborů, které indexuje.
    Jste si jistý tím, že videa nijak neindexuje? Vyhledávače se snaží zaindexovat všechno, typ souboru budou nejspíš brát jenom jako pomocné kritérium. Pokud chcete indexování omezit, použijte robots.txt, zbytek bych nechal na vyhledávači – jestli si myslí, že si poradí s videem, tak ať si ho klidně stáhne.
    Jendа avatar 19.2.2011 23:39 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Vzhledem k tomu, že váš server posílá aktuální datum a čas, by ta hlavička stejně byla k ničemu.
    Kde? Nikde to tam nevidím.
    --2011-02-19 23:38:06--  http://mirror.vpsfree.cz/archlinux/iso/latest/archlinux-2010.05-core-dual.iso
    Překládám mirror.vpsfree.cz… 83.167.228.98, 2a01:430:17:1::60
    Navazuje se spojení s mirror.vpsfree.cz|83.167.228.98|:80… spojeno.
    HTTP požadavek odeslán, program čeká na odpověď…
      HTTP/1.0 200 OK
      Connection: keep-alive
      Content-Type: application/x-iso9660-image
      Accept-Ranges: bytes
      ETag: "1691149564"
      Last-Modified: Sun, 16 May 2010 14:30:16 GMT
      Content-Length: 691011584
      Date: Sat, 19 Feb 2011 22:38:06 GMT
      Server: lighttpd/1.4.19
    
    A když mu pošlu třeba If-modified-since: Fri, 18 Feb 2011 15:00:00 GMT, vrátí 304.
    20.2.2011 10:35 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Zkoušel jsem to na těch adresách video.hrach.eu. Tam server neposílal ani ETag ani Last-Modified, jenom čas zpracování požadavku v hlavičce Date.
    Jendа avatar 20.2.2011 14:43 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Podle mě neposílal Last-Modified jen u souborů, u kterých neznal mime typ (tj. webm a mkv, vizte bug výše) a u dynamicky generovaného HTML (tj. index.php s různými parametry), ale teď už to těžko zjistíme. Ale ETagy se to spravilo, robot mi už posílá hlavičky typu If-None-Match: "29492511", takže mu můžu odpovídat 304. Takže uznávám, že chyba byla u mě, doplním řešení do zápisku.

    Stejně mi ale přijde zajímavé, že se někomu vyplatí provozovat robota, který stahuje úplně všechno - když si vezmete, kolik existuje po světě zrcadel různých distribucí, každé o velikosti stovek GB, a spousta jich toto nemá zakázané v robots.txt, tak i když jejich servery mají správně nastavené cachování, robot se musí ustahovat.
    20.2.2011 15:04 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Pozor na Yahoo! Slurp, vyžírá linku zbytečnými přenosy
    Myslím, že většina profi mirrorů to bude mít nastaveno správně. A ti ostatní si to holt nastaví správně po podobné zkušenosti, jakou máte vy :-) Celkem chápu, že robot stahuje všechno – spousta serverů je špatně nakonfigurovaná, takže vrací třeba špatný mimetyp, dále jsou to chybné informace o kódování stránky nebo o jazyce… Robot, který by moc spoléhal na informace od uživatele, by spoustu věcí vůbec nenašel. Takže raději stahuje všechno a pak se v tom pokouší sám vyznat.

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.