Portál AbcLinuxu, 2. května 2025 20:36
Jenom počkej, až ty weby začnou předělávat.. Za chvilku tě to přestane bavit
Oni uz je predelavaji:) Ale samozrejme, zalezi na tom, co na tom webu maji a jak slozity to maji. Dokud to bude jenom jednoduchej JS s nejakou hodnotou na odpocitavani a bude tam hodne veci ke stazeni, tak se to vyplati. Kdyz tam nebude nic, nebo stejny veci pujdou najit i jinde, nebo to bude pomaly a pritom slozitej JS kod na rozlousknuti, tak to samozrejme budu ignorovat.
Zatim nejtezsi byl jeden JS, kde pouzivali nejaky metody na stringy a nejaky vypocty, ale vzdycky to bylo to stejny, jenom se menily hodnoty, takze na to stacil trosku slozitejsi (oproti ostatnim) regexp a pak jednoduchej JS interpret. Ono se jim taky moc nevyplati delat tam nejaky slozity zabezpecovani:) Dokonce rapidshare zrusil captcha.
Takze jen tak me to bavit neprestane:) Jak muzes videt, prvni zapisek ve stahovacich skriptech je uz rok starej, a to jsem ty skripty mel jeste driv, nez jsem je dal do blogu.
awk: read error (Is a directory)
awk: read error (Is a directory)
awk: read error (Is a directory)
|
+----> pokus z rapidshare
Ha, divny, posli mi URL (pres email, nebo sem do dizkuze, pokud to neni nejakej copyright), ktery stahujes. Ted zkousim jeden soubor a jede dobre, overil jsem i zkopirovat skript z blogu a porovnat s originalem a je to naprosto stejny (krome jednoho smazlyho komentare).
Mea culpa - teraz som checkoval ten link browserom a na serveri sa uz nenachadzal - moze to byt ono? Nemalo by zahlasit nieco ako link deleted a tak? :-)
Posli mi do mailu ten link. Me rapid pri neexistujicim odkazu hlasi neco jako host not found, ale mam dojem, ze by to melo takovej link preskocit, kdyz uz neexistuje, ale mozna jsem tam vynechal podminku.
Hej, to neni chyba rapidu. Ten awk pouzivam pro cteni proxyn. Ale na zacatku mam test, jestli ten soubor existuje a kdyz ne, tak vypise chybu, takze by to nemelo takhle selhat. Aha, ty jsi to udelal jako adresar misto souboru?
He, zkousel jsem to udelat jako adresar a awk mi hlasil uplne jinou chybu nez tobe. Divny. Ale ted jsem to upravil, tak by to melo psat normalni chybu.
No, udrzovat ... budu to udrzovat tak, ze kdyz zjistim, ze nejakej link nejde, tak to opravim - pripadne, kdyz nekdo posle, ze neco nejde ... jinak nemam v planu, ze bych to kazdej den kontroloval, jestli se nekde neco nezmenilo. na to fakt neni cas.
Jedine co sere su tie CAPTCHA kody - preco je take tazke napisat nieco na ich citanie (sledovanie zmeny farieb na obrazku, citanie ciar podla odtiena - transformacia do textu)?
no, tezky je to proto, ze mezi ty pismena davaji i ruzny cary na mateni OCR, navic tyhle ruzny cary maji obvykle i stejnou barvu. No a clovek ma hodne dobrej mechanizmus na rozpoznani tvaru, nebo aspon k prirazeni nejakyho tvaru k podobnymu, takze to precist dokaze. Ikdyz teda ja osobne mam obcas dost problem.
Jednou taky rapid daval tusim pod pismenka obrazek kocicky nebo pejska a pak napsal, ze musis opsat jenom ty pismena, pod kteryma je kocicka:) Fakt zabavny, ale aby pocitac mohl tohle sam vyhodnotit, tak uz potrebujes opravdu umelou inteligenci, ktera dokaze pochopit, co je obrazek kocicky a co pejsek. Jinak asi by se dalo pripadne udelat neco jednoduchyho, kde bys pouzival masku kocicky a pejska, to nasel v captcha, pak vzal to pismeno pod tim, nejak odfiltroval ten obrazek a pak z toho dostal znak. Ale staci nepatrny deformace a klasicky OCR si s tim neporadi. Porad je ale jenodussi predhodit ten obrazek cloveku, kterej to zvladne behem par vterin:)
Presne Bylo to docela zajimavy sledovat ten vyvoj. Nejdriv jenom klasicka captcha, pak v tom obrazku pribyla ta zviratka, ale porad se opisoval cely kod. A pak jednou udelali captcha delsi a zadavat se mela jenom pismena s kocickou. Tak jsem asi desetkrat blbe zadal kod, nez me napadlo se podivat na stranku web prohlizecem a zjistil jsem, ze se maji zadavat jenom znaky s kocickama
Za nejakou dobu zrusili zviratka a zmenili font. A pred nejakou dobou zrusili captcha uplne.
Vzhledem k nedávným událostem je to docela odvaha. Věděl si, že obdoba DMCA byla přijata v EU? Jmenuje se to EU Copyright Directive a znění české implementace je třeba dostupné zde. Zatím jsem teda nenašel nic o nástrojích dovolujících či usnadňujích, ale bůh ví co v tom vlastně všechno je a co na nás platí.
Uch , trosku jsi me vydesil. Ale klid. Muj skriptik nedela nic, co by porusovalo zakony - to by pak museli zrusit vsechny web browsery:) Jediny, co ten skriptik dela je:
Stejne jako to dela web browser, akorat v mym pripade se na to pouziva wget a pokud neni pozadovanej kod overeni, tak to umoznuje beh automaticky bez interakce v prohlizeci.
No, §43 nebo §44 pro tento případ asi platit nebudou, ale u §40 už si nejsem tak jistý (snažil jsem se asi půl hodiny přesně vyznačit, kterou část myslím, ale přes ten editor co tady funguje se mi to nepodařilo). U Adobe na to šli podobně.
Stejne jako to dela web browser, akorat v mym pripade se na to pouziva wget a pokud neni pozadovanej kod overeni, tak to umoznuje beh automaticky bez interakce v prohlizeci.
Proto to také zmiňuji.
Uch ,ne, opravdu netusim, jakou cast par.40 bych mohl porusovat. Vsechno, co v tom skriptu pouzivam, je sirene pod GPL (bash, wget, Xdialog, gqview).
Ne, do autorskeho prava opravdu nicim nezasahuju. Jedine, jak by se ten skript dal popsat je "usnadneni ziskavani verejne dostupneho weboveho obsahu". A pokud bys chtel "logicky" namitat, ze prave diky mojemu skriptu je mozny stahovat dila chranena autorskym zakonem, ktery nekdo jiny neopravnene siri, tak potom by ten zalobce musel zacit u vsech prohlizecu, vcetne IE, FF a jeste prede mnou i s wgetem.
Ano, muj skript umoznuje jednodussi stahovani, ale to neni autorskym zakonem omezovane. A ochrana stahovani pomoci captcha neni ochrana autorskeho dila. Bud jsi spatne pochopil ten zakon, nebo jsi nepochopil, jak vlastne ty sdileci servery fungujou.
Aha, ted jsem si precet tu zpravicku o rtmpdump. No, to jsou teda fakt paka:) Nicmene ten muj skript sam o sobe nic nestahuje, pouze pouziva externi utility. Takze pokud by chtel nekdo neco nahodou zakazovat, tak by musel zakazat wget, curl, lynx, links a mozna by se mi podarilo donutit i firefox, aby stranku stahnul a ulozil:) A to asi tezko.
Problem je, ze rtmpdump pouzival opravdu nejakou cizi technologii, pravdepodobne i nejak chranenou. Jestli provadeli reverse-engineering netusim, nicmene bych rekl, ze to bylo podobne jako u pripadu TomTom versus Microsoft ohledne FAT. Adobe to zrejme nahral radsi na DMCA, ikdyz by mozna mohl hrat na reverse-engineering jejich protokolu (a urcite nekde v licenci maji, ze pri pouzivani flashe se nesmi komunikace zkoumat).
Muj skript nic takovyho nedela, proste spusti program, precte a zpracuje data a spusti dalsi program. Pokud by neco takovyho chteli zakazat, tak muzou zrusit kompletne vsechno.
Hej, clovece, myslim, ze budes stastnej:) To je presne to, co to umi. Zadas na radku URL adresy, pokud mas i vic proxy serveru, tak skript vezme prvni URL. Nastavi prvni proxy a zkusi stahnout. Bud se to stahne a jde se na dalsi URL od prvni proxy opet, nebo je tam nejaky cekani X minut (obvykle 10 a vice), pak to vezmu druhou proxy a zase zkusi. Kdyz ted rapid nevyzaduje captcha, tak to samozrejme zadny kod nepozaduje, takze to bezi plne automaticky. Da se tak cucat z rapidu na vzdalenym serveru. A samozrejme to je pro anonymous usera.
skoda, ze Ti tam chyba upnito.sk. obcas by sa hodil. jose
hele, neni problem. Posli mi pres emailovej formular nejakej link, na kterym to budu moct zjistit a otestovat a pripisu to, pokud to nebude nejake extra slozity. Mozna jsem par odkazu na upnito.sk videl, ale zrejme jsme k nim mel jiny alternativy (rapid, megaupload ...), takze jsme nemel potrebu to psat (navic tam mam dva jiny slovensky (ulozisko.sk a subory.sk). Ale posli nejakej link a ja mrknu, jestli by to slo pridat.
1) ma este happyhour zmysel? imho captchu uz rapid zrusil uplne
2) ak nenajde graficky displej nemohol by sa obrazok otvorit v cacaview? ked uz sa inak neda (server bez Xov) tak sa s pomocou +/- a pri troche stastia da CAPTCHA precitat
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.