Postavme si vlastni internetovy vyhledavac (diskuse)

AbcLinuxu:/ Blogy / puppylinux / Postavme si vlastni internetovy vyhledavac / Postavme si vlastni internetovy vyhledavac (diskuse)

Štítky: není přiřazen žádný štítek

Nástroje: Začni sledovat (1) ?

Vložit další komentář

18.1.2011 16:55 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Podle wikipedie měl v roce 2004 cluster Googlu celkem 63 tisíc celkem obyčejných počítačů. Myslíš, že máš sebemenší šanci toho v domácích podmínkách dosáhnout? Nebo se tomu jen o pár řádů přiblížit?

Pokud něco okolo vyhledávání chceš dělat, tak máš šanci prohledávat cíleně a udělat něco, co by prohledávanému obsahu rozumělo (alespoň částeně). Možná něco ve stylu wiki, kde by místo psaní článků byly odkazovány celé stránky a byla by nad tím udělaná hodně dobrá navigace. Vlastně by to propojovalo weby místo toho aby to v nich hledalo.

Hello world ! Segmentation fault (core dumped)

18.1.2011 17:16 Riviera Kid
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Ted jich ma pry pres milion.

18.1.2011 20:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Plus jeden z najvýkonnejších kloudov na svete.

KERNEL ULTRAS video channel >>>

18.1.2011 23:04 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Ne plus, ale rovná se.

SPD vůbec není proruská

19.1.2011 10:57 Atom321 | skóre: 20
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Ted jich ma pry pres milion.

No taky už to není jen vyhledávač.

18.1.2011 17:22 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Pokud se dobře pamatuju, tak v jakémsi rozhovoru na nejmenovaném konkurenčním portálu se tvrdilo, že takový Seznam běží na řádově stovkách počítačů. Clustery Yahoo mají jednotky tisíc počítačů. Srovnávat se s Googlem je nesmysl (zvlášť když Google má třeba dneska kompletní index webu v paměti a vůbec při vyhledávání nesahá na disk).

Pokud jde o můj skromný názor: odhaduju, že vyhledávač ve významné podmnožině .cz by se vešel na několik desítek mašin. Začít můžete třeba tady.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

18.1.2011 17:54 |🇵🇸 | skóre: 94 | blog:
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Seznam AFAIK indexuje jenom českou část webu.

Přeju příjemnou zábavu ohledně návrhu algoritmů a nějakého distribuovaného výpočetního výkonu + úložiště.

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

18.1.2011 19:37 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Seznam AFAIK indexuje jenom českou část webu.

O tom se tady taky mluví. Aby hledal prozatim jen v TLD cz.

Přeju příjemnou zábavu ohledně návrhu algoritmů a nějakého distribuovaného výpočetního výkonu + úložiště.

Zábava by to byla, ale open-source distribuované indexery a vyhledávače už existují. Pro amatérské použití dostačující až až. Link, odkud začít, jsem dával.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

19.1.2011 22:01 Stepan Skrob
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Zdar boyz, myslim ze minimal konfigurace pro ciste vyhledavani jen v .cz jsou tak 3-5 nabušené stroje. latence odpovědí ale nebudou moc růžový :-)

V Seznamu nam ted bezi test (vydeje) hledani asi na 6 strojich; databaze by se dala jeste trochu zmensit.

Myslim ze pro maly setupy bude spis vetsi zahul na stroje pro robota - obnova stranek, indexace a tak...

-- stepan

20.1.2011 10:35 alblaho | skóre: 17 | blog: alblog
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Ale Jyxo svého času běželo řádově na jednotkách serverů v v cz. vyhledávalo slušně.

Nesouvisející poznámka: kdosi mi kdysi osvětlil, že p2p vyhledávač je utopie, prostě ty latenci to zabíjejí.

20.1.2011 12:26 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Asi jo. Já jsem to trochu nadhodnotil, protože jsem myslel na technologie kolem Hadoopu a spol. Ručně napsané to určitě musí být lepší.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

20.1.2011 12:58 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

p2p vyhledávač je utopie, prostě ty latenci to zabíjejí

Latence vzniká jednak pomalým uploadem od domácích uživatelů a jednak nízkým výkonem/kapacitou jejich počítačů.

Co se týče toho prvního, je jen otázka, co je pro nás přijatelná latence – ano, Google odpoví prakticky hned, ale je třeba zpoždění 2-3 vteřiny už nepřijatelné? Pokud bych dostal relevantní výsledky, tak za to budu rád a řádově vteřinovou dobu si bez problémů počkám.

A co se týče výkonu počítačů – jde o to, jak dobře ten systém umí škálovat, Google má sice „hodně“ serverů, ale používá ho „hodně“ lidí. Pokud by všichni přestali používat Google a místo toho obětovali nějaké procento výkonu svého počítače P2P vyhledávači, byl by celkový výkon mnohem větší, než co má Google teď.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

20.1.2011 13:31 marbu | skóre: 31 | blog: hromada | Brno
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Kdosi jiny ale zda se pouziva p2p pristup pri prohledavani webu, kdysi tu o tom byl zapisek: 80 nohou prohledává web z vašeho počítače.

There is no point in being so cool in a cold world.

18.1.2011 20:54 qiRzT | skóre: 14 | blog: U_Marvina
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Jen 63 tisíc? No tak pro začátek nebude indexovat porno a zvládne se to dvěma. :-)

Důležité je vědět jak problém vyřešit, zbytek zvládne i cvičená opice...

19.1.2011 12:48 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Nebo se tomu jen o pár řádů přiblížit?

O pár řádů? Vždyť mi k tomu chybí jen jeden řád. A to google indexoval mnohem větší rozsah než pouhou .cz.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

18.1.2011 17:11 Riviera Kid
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Google pry dava rocne do hledani asi 70% rozpoctu, tedy nekolik desitek miliard korun. Provozovat vlastni vyhledavac realny je, ale kdyz ziska 1%, budes mit muj velky obdiv.

18.1.2011 17:14 Riviera Kid
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Jeste dodam, ze samozrejme ma smysl neco podobneho delat, kdyz to nebude pouze pokus o kopii Googlu s podmnozinou jeho funkci.

18.1.2011 20:49 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Lenže Google robí vyhľadávanie na všetko a nič. Nefunguje to zle, občas to štve. Napr. hľadáš fotogalérie a musíš kua dobre zadať dotaz aby si nemal výsledky plné porna. Lokálny Československý vyhľadávací nástroj na Linux (HW/SW), OpenSource (HW/SW) a galerie by som uvítal a myslím že nie sám. Dá sa to zrealizovať aj za pár drobných, málo dát, len by to chcelo sa do toho obuť. Osobne by som do toho malými pokusmi/radami prispel, niečo také prevádzkujem pre svoju potrebu.

KERNEL ULTRAS video channel >>>

19.1.2011 00:14 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

poslední dobou mám větší úspěchy v hledání na Yahoo/Bing než u Google. Google to najde taky, ale až po nutném upřesnění. Já jsem hodně používal lycos, ale ten jen přežívá

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude

18.1.2011 17:26 Radek Miček | skóre: 23 | blog: radekm_blog
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Na MFF byl napsán vyhledávač Sherlock Holmes.

18.1.2011 17:40 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Na MFF byl napsán i vyhledávač Egothor. (Btw, zajímalo by mně, co si MJ myslí o Egothoru a Leo o Holmesovi :-)

)

Ještě na tom nejsem tak špatně, abych četl Viewegha.

19.1.2011 09:53 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

(Btw, zajímalo by mně, co si MJ myslí o Egothoru ...)

Egothor is ... written entirely in Java.

Mám své podezření ;-)

When your hammer is C++, everything begins to look like a thumb.

18.1.2011 17:34 Johanius
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

P2P open source vyhladavac ;-)

Po skuskovom mozme zacat :)

18.1.2011 17:42 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Hehe, šílená myšlenka. Znamenalo by to ale hlavně: a) P2P indexátor, b) dostatečnou redundanci indexátorů, c) asi by se moc nedalo se bránit záškodnickým indexátorům (a tím SEO podvodům)...

multicult.fm | monokultura je zlo | welcome refugees!

18.1.2011 18:18 Johanius
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Poslem data na dva(n) nahodne nody a ked sa vysledky nerovnaju opakujem(&&vylucim chybovy node).

19.1.2011 17:39 Vikthor | skóre: 4 | Praha
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Nemusíš začínat stačí se připojit, už totiž existuje Yacy.

18.1.2011 17:59 Riviera Kid
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Petra Hejla znate - http://exotopedia.org/wiki/Petr_Hejl? :-D

18.1.2011 21:04 MaFy | skóre: 24 | blog: kecy | Praha
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

A kouknete na ten zaznam poradu den D. TO je fakt exot :-D

Lidé se dělí do 10 skupin. Na ty, co rozumí binárnímu kódu a na ty ostatní...

19.1.2011 10:03 SPM | skóre: 28
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Jojo... původně jsem zápasil se stahovánim toho videa z archivu a nakonec když se povedlo, tak jsem to nevydržel a pouštěl jsem si to ještě v půl jedný ráno... ten je fakt hustej :-D

18.1.2011 18:02 rADOn | skóre: 44 | blog: bloK | Praha
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Pokud chces dneska provozovat poradny vyhledavac, problem neni ani tak indexace toho co chces najit, jako spis odfiltrovani toho co najit nechces. Nemaly mnozstvi subjektu je schopny investovat nemaly mnozstvi prace a penez aby ti vysledek zkurvili. Viz miliony MFA webu ktery spamujou vysledky google i kdyz maji nulovy vlastni obsah.

"2^24 comments ought to be enough for anyone" -- CmdrTaco

18.1.2011 18:09 deda.jabko | skóre: 23 | blog: blog co se jmenuje "každý den jinak" | za new york city dvakrát doleva a pak už se doptáte
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

jezismarja, nerikej to nahlas nebo se tu objevi Petr Hejl a jeho novy hledac. ;-]

Asi před rokem se dostali hackeři na servry Debianu a ukradli jim zdrojové kódy.

18.1.2011 18:28 otasomil | skóre: 39 | blog: puppylinux
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

No to uz by tady chybel akorat Jara Cimrman

K čemu hudba, která nevede k extázi... Stop MDMA !!! I spam umí být roztomilý

19.1.2011 07:09 Dormeg
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

To můžeš být v klidu. Ten se tu neobjeví, protože tady z toho kouká jen práce a ne ten jeho požadovaný milión na chlast a děvky.

18.1.2011 19:47 limit_false | skóre: 23 | blog: limit_false
Rozbalit Rozbalit vše Vyhledavac co umi hledat specialni znaky

Odpovědět | Sbalit | Link | Blokovat | Admin

Zna nekdo vyhledavac, ktery umi vyhledavat i specialni znaky, napr kdyz zadam: makefile $@ nebo bash $!, tak to najde definici te promenne? Ja jsem dlouho hledal a nic takove jsem nenasel.

When people want prime order group, give them prime order group.

18.1.2011 19:53 marbu | skóre: 31 | blog: hromada | Brno
Rozbalit Rozbalit vše Re: Vyhledavac co umi hledat specialni znaky

Nejak takto?

There is no point in being so cool in a cold world.

19.1.2011 00:28 limit_false | skóre: 23 | blog: limit_false
Rozbalit Rozbalit vše Re: Vyhledavac co umi hledat specialni znaky

Hm, je to o neco bliz, ale treba to neumi "perl $/" nebo "bash $?"

Ne ze by to neslo nalezt nekde v dokumentaci, ale nejvice casu vubec zabere najit tu spravnou stranku, kde jsou ty promenny. Zrovna u makefajlu jsem mival pravidelne gulas s nekterymi exotickymi promennymi (v cizich makefajlech).

When people want prime order group, give them prime order group.

19.1.2011 01:54 marbu | skóre: 31 | blog: hromada | Brno
Rozbalit Rozbalit vše Re: Vyhledavac co umi hledat specialni znaky

Az tak univerzalne to bohuzel nefunguje, ale porad je to na hledani v manualech docela dobre. Ten makefile to hned vyhodilo asi proto, ze ho to nahodou naslo na stackoverflow. Mozna by stalo za to se autora zeptat, jak velky problem by byl s tim neco udelat, kdyz uz je ten vyhledavac vice mene technicky zamereny.

Jinak ja mel tenhle problem s perlem, kdy dohledani nekterych konstrukci v cizim zdrojaku mi dalo docela zabrat. Neco se dalo dohledat pres 'perl special variables' nebo 'periodic table of operators', ale taky by mne potesilo, kdyby to slo vyhledat nejak primo.

There is no point in being so cool in a cold world.

21.1.2011 01:46 limit_false | skóre: 23 | blog: limit_false
Rozbalit Rozbalit vše Re: Vyhledavac co umi hledat specialni znaky

Autor propagoval duckduckgo na redditu. Je to o neco lepsi, zatim nejlepsi co znam, protoze Google Code Search umi hledat jenom ve zdrojacich. Nicmene lze porad vylepsit, ale stejne diky.

Treba 'man perlvar' si uz pamatuju, ale s makefajlama mi dlouho trvalo nez jsem se naucil, pod jakymi klicovymi slovy to hledat.

When people want prime order group, give them prime order group.

18.1.2011 19:48 manasekp | skóre: 29 | blog: manasekp | Brno
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

myslim si ze hledat jenom cz je realne, je totiz daleko vetsi problem indexace rozumneho mnozstvi webu nez vytvorit "nejaky" vyhledavaci algoritmus. Samozrejme pokud se nebudes snazit kvalitou prekonavat google :-)

BIOKOMP | Cas od casu se pokousim nekoho srazit k zemi abych se tam nevalel sam.

18.1.2011 20:28 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

A co takhle P2P vyhledávač – člověk by si přidal stránku do záložek a tím by ji zaindexoval – pak by ti chodily dotazy od ostatních a ty bys jim vracel případné výsledky. Čím oblíbenější by stránka byla, tím pravděpodobněji by se od někoho vrátila (protože ne všichni by měli zapnutý počítač). :-)

Akorát až by se vyhledávač trochu víc rozšířil, uživatelé by dost trpěli, protože by se jejich počítačů neustále někdo dotazoval. Leda mít na svém počítači i části cizích indexů, ale odpovídat jen na některé dotazy (tzn. prohledávat víc dat, ale méně často).

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

18.1.2011 21:13 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Hlavně by trpěli uživatelé, kteří by hledali. Vyhodnocení dotazu by trvalo řádově minuty. Vedle toho je google tak rychlý, že poslat dotaz přes půl zeměkoule, nechat prohledat obrovský index a počkat si na odpověď je rychlejší, než dopisovat druhou polovinu názvu serveru...

Navíc tahle technologie už existuje. Gnutella, magnet linky na torrenty a DHT obecně.

Hello world ! Segmentation fault (core dumped)

19.1.2011 11:32 h.xman | skóre: 10
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

P2P vyhledávač už existuje: faroo.com. Nezkoušel jsem to - zatím mají jen verzi pro Windows a iOS, ale prý už mají dva milióny peers. Jestli máš náhodou Windows po ruce, můžeš vyzkoušet a pak dát vědět, jestli to k něčemu je.

Pro poutníky mezi vámi: Camino de Santiago

19.1.2011 01:26 YYY | skóre: 29 | blog: martinek
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Kdysi jsem si vlastni vyhledavac napsal. Indexoval jsem si jen ale z legrace nekolik domen, ktere meli alespon neco spolecneho s GNU/Linuxem. I na teto pomerne omezene mnozine za chvilku rostl objem dat databaze uctyhodnym zpusobem a na muj hw (jednojadro + pomale uloziste) to bylo uz moc. :-)

Zajimave reseni by bylo udelat to na zpusob Seti@Home, otazka ale zni, jestli by ta prace mela nejaky efekt. Googlu proste konkurovat tezko.

19.1.2011 22:11 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

zdravim,

pridam trochu sci-fi, ale na to nebudete slyset(berte to jako humoer z me strany):

Tak zalezi na tom, kolik mate penez ?? Venoval jsem se nejaky rok rozpoznavani a vytezovani dat z textu. To co chcete, je to prace na nekolik clovekoroku + nejaky strojovy vykon. Jo a pripravte si i nejaky markerting....

At tu neuvadim cenu: Rekneme ze za hezky vetsi byt na Vihoradech by se o tom dalo povidat.....

19.1.2011 23:25 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

+ nejaky strojovy vykon

Nějaké 5U pro 52 SATA disků , k tomu deska pro 4x XEON MP , ke každému tak 32GB ECC Ramky. Odhadem jsem u ceny kolem 700 000.- což by třeba pro začátek stačilo.

Case cca 100 000,- 52x disk 2000GB tj. cca 200 000.- , Deska + cpu + ram + Arecca zbytek

+ nějaká pořádná GB-FC karta

Jako úložiště by to snad mělo prozatím stačit

marketing ech ech

V dnešní době kdy i seznam hledá kde by udal nějakou reklamu je toto jistě těžké a lokální vyhledávač se bez reklamy neuživí. Kdybych hodně spekuloval tak si musí na sebe vydělat aspoň na provozní náklady. Chtělo by to nějakého dobrého sponzora třeba stát

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude

20.1.2011 09:11 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

tak podle me se uzivite i bez reklamy v prvnich kolech. Mozna, ze reklamu bych bral jako vedlejsi efekt. Ciste bych spise nabidl vyhledavani firmam v jejich dokumentech - dodat to jako vyhledavaci engine.

20.1.2011 11:33 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Tyto věci nabízí u nás na trhu celkem hodně velká spousta firem. Jako velké CMS spojené s kopírkama, tiskárnama apod.

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude

20.1.2011 00:51 Kvakor
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Když už sci-fi, tak pořádnou:

Dnes má jakýkoli běžný vyhledávač "googloidního" typu tu smůlu, že stojí proti Google, takže i velké firmy jako Microsoft se přes značné investované prostředky dostanou jen na řádově procenta (a i když Yahoo teď používá stejný engine, dohromady mají stale méně než deset procent).

Takže jediná možnost je mít vyhledávač radikálně odlišného typu, například disponující umělou inteligencí, tj. vyhledávač, který by opravdu porozuměl položené otázce a vrátil jen relevantní data. Takovému vyhledávači by stačil menší index (protože by, narozdíl od Googlu, tupě neindexoval hlouposti) a nejspíš by se jeho uživatelé smířili i s horší odezvou, alepoň pokud by byla kratší než čas, který by museli sami objetovat na protřídění výsledků z klasického vyhledávače.

Jedinou podmínkou by byla opravdu vyspělá umělá ínteligence, relativně srovnatelná (v tomto ohledu) s lidskou, která by byla schopná zpracovat data na sémantické úrovni a zpracovávat běžné dotazy v "lidské řeči". Některé specializované vyhledávače (jako WolframAlpha) to částečně umějí už dnes a nedávný úspěch superpočítače Watson ukazuje, že něco podobného už nebude daleko.

Jenže, na druhou stranu, dokážete si představit superpočítač s inteligencí srovnatelnou s lidskou, který by si musel nedobrovolně přečíst celý Internet, v případě "multimediálního" obsahu navíc ještě prozkoukat veškeré obrázky a videa, a i když by je nemusel zaindexovat jako celek, musel by přesto mít záznam o tom, co se v nich nachází a proč to nemá cenu indexovat.

Protože v důsledku druhého Sturgeonova zákona 90% obsahu stojí za starou bačkoru, musela by si umělá inteligence poradit i s věcmi jako blogísky o koníšcích (sic), praštěnými obrázky koček s ještě praštěnějšímy texty a videy lidí předvádějícími všechny druhy exktrementích funkcí a nezbláznit se z toho, což je úkor věru hodný nadčlověka.

Proto by nejspíš provozovatelé použili první verzi jako tzv. seed AI, aby se dokázala vyvíjet a vylepšovat sebe sama. Čímž by nejspíš jen oddálili okamžik, kdy by se v tomto případě už silně nadlidská inteligence zbláznila, v lepším případě nějakým neškodným způsobem, v tom horším ... no, řekněme, že to, jaký by takováto inteligence měla názor na lidstvo, asi nejlépe napsal Harlan Ellison (viz citát AM v článku). Na druhou stranu, umělá inteligence, která by si celý Internet přečetla a prohlédla dobrovolně a nebyla by držená "na uzdě", by mohla být ještě mnohem horší ...

20.1.2011 07:10 Bedňa | skóre: 34 | blog: Žumpa | Horňany
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Lenže toto by platilo len do chvíle, kedy by začal indexovať Jílkov blog, tam by sa zacklil a zhorel :-)

KERNEL ULTRAS video channel >>>

20.1.2011 09:03 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

… a jmenovala by se Skynet.

Hello world ! Segmentation fault (core dumped)

20.1.2011 01:41 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

moorov zakon hovori, ze o dvadsat rokov mozes googlu konkurovat aj s domacim desktopom.

je tu jeden problem. pokusim sa ho priblizit na priklade z filmu: hlavny hrdina v obave z bojovych schopnosti vedlajsej postavy, poznamena: "mal by som sa zacat ucit karate." uplne ina vedlajsia postava: "to si mal pred tym, ako zacal on."

20.1.2011 08:14 SPM | skóre: 28
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

moorov zakon hovori, ze o dvadsat rokov mozes googlu konkurovat aj s domacim desktopom.

To není tak úplně pravda... za 20 let totiž může konkurovat googlu tak, jak vypadal před 20 lety... jelikož ten objem dat stále roste, tak mu to zase stačit nebude :)

20.1.2011 17:21 xxxs | skóre: 25 | blog: vetvicky
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

to som sa snazil vysvetlit v druhom odstavci.

21.1.2011 10:13 Miloslav Ponkrác
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Google odhadem indexuje sotva dvacetinu existujícího internetu.

Už dnes je vidět, jak Google se snaží zastírat, že může indexovat jen zlomek webu. Například se snaží preferovat určité weby. Krásně to poznáte v okmažiku, kdy rozjedete nový web.

Já pravidelně sleduji logy na mých stránkách co dělají vyhledávače (už jsem jich identifikoval přes 50). Není výjimka, že Google zařadí novou stránku na webu až po několika měsících.

Jsem pak docela rád, že mi je Google docela putna. Dokážu si docela představit, že kdyby můj web na Google závisel, že bych Google neměl rád – je to zcela v souladu s tím, jak si stěžují na Google mnozí majitelé webů.

A také si všímám, že jeho vyhledávání je měsíc od měsíce horší a že je čím dál lepší používat třeba Microsoftí Bing, nebo jiný, apod. Je jen otázkou času, kdy si toho všimne významný počet lidí, aby to Google trápilo. Jenže v tu chvíli už bude pro Google pozdě.

21.1.2011 13:55 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

A co teprv za jak dlouho po googlu se probudí seznam :).

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

21.1.2011 15:19 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

No jestli naroste popularita Bingu, potažmo tedy MSN, tak to nechci vidět. Už teď si lidi stěžují na velkobratrskost Googlu a kdesi cosi,... Pokud by měl v budoucnu MS mít tu pozici, kterou má teď Google, bylo by to imho o dost horší, MS je imho o dost děsivější velký bratr než Google.

SPD vůbec není proruská

21.1.2011 16:06 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Měsíců? Google v logách vidím skoro každý den. Po nasazení nového webu na který vedou linky z již prosazených webů, tam jsou vyhledávače do několika dnů (většinou na druhý den). Všechny CMS dneska navíc posílají vyhledávacím robotům info o novém vydaném obsahu a ten je zaindexován v řádu hodin.

Heron

21.1.2011 10:01 Miloslav Ponkrác
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Odpovědět | Sbalit | Link | Blokovat | Admin

Udělat se dá cokoli.

Asi dosti utopické je chtít vyhledávač komerčně zhodnotit. A to i přesto, že nějakou dobu tvrdím, že je otázka několika let, než Google zkrachuje.

Pokud jde o to to dokázat technicky, pak to není až takový problém.

Základem je, že je třeba se vyhnout algoritmům profláknutým u Google, které způsobily bordel na webu obecně – například že už nikdo nechce odkazovat na zajímavé stránky, že namísto obsahu jsou všude klíčová slova pro lepší pozici v Google, a řadu dalších.

Výkony počítačů jdou natolik nahoru, že dnes není třeba na vyhledávač mít farmy tisíců počítačů – pro začátek to klidně může běžet na jediném, naostro pak na pouhých několika – pokud se omezíte na určitý výsek internetu.

Napsat vyhledávač není těžké. Chce to určitou znalost teorie. Co je těžké jsou algoritmy na kategorizaci a rozpoznávání co je podvod a co relevantní zařazení stránky.

Pokud máte znalosti, zkušenosti, dostatek času nebo peněz, pak vyhledávač není až tak složitý problém – navzdory tomu, co v této diskusi píší jiní.

Co je problém je potřeba těch zkušeností, které se obvykle získávají za mnoho let a v té době pak nadšenecky dělat moc nechcete. Já sám jsem se pokoušel v minulosti přidat k několika open source skupinám, ale už jsem poučen a už to nikdy neudělám.

Potřeba analýzy, nutnost navržení architektury, promýšlení apod. jsou u nezkušených mladých lidí do cca 30 let silně podceňovány a brány jako flákání. Jediná „správná práce“ je počet odseděných hodin u kódování. Následně Vás mladší a nadšenější nutí do postupů, o kterých už dávno víte, že vedou do WC (to samé se děje v řadě programátorských komerčních firem, kde to dělají vedoucí). Nenechají si to rozmluvit, nevysvětlíte – některé zkušenosti jsou nepřenositelné. Projekt pak dopadá tak, že po několika letech zjistí tudy ne – a raději se nemluví o mých protestech, které varovaly před něčím co se do puntíku vyplnilo.

Takže projekt vyhledávače není nic tak těžkého, jak se tu maluje. Důraz je třeba klást na návrh a analýzu. Na tom záleží.

Ale jak říkám, zkušenější do toho nepůjdou – své období nadšeneckých projektů mají za sebou. A bez zkušeností dobrý vyhledávač nevznikne.

Takže doporučuji studovat teorii a materiály, nebo vymyslet jak na vyýhledávači zbohatnout a zaplatit zkušené, nebo se na to vykašlat. Alternativa je, že stavění vyhledávače pro Vás bude cesta, jak pokročit v sw skills. Možná ho dokončíte do určité podoby, možná ne, ale to je jedno – vy se hodně naučíte.

21.1.2011 12:15 Martin Mareš
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Výkony počítačů jdou natolik nahoru, že dnes není třeba na vyhledávač mít farmy tisíců počítačů – pro začátek to klidně může běžet na jediném, naostro pak na pouhých několika – pokud se omezíte na určitý výsek internetu.

Jinými slovy pokud chcete navrhnout vyhledávač, který skoro nic nenajde, vystačíte si s jedním počítačem. Pravda pravdoucí :-)

Napsat vyhledávač není těžké. Chce to určitou znalost teorie.

V zásadě ano. A také si umět poradit s obrovským množstvím dat, což už tak snadné není. A také s hromadou podvodníků, kteří se vás stále snaží ošidit. A s autory webových stránek, serverů a operačních systémů, kteří jsou neobyčejně kreativní v tom, jak si lze libovolný standard vyložit. (Něco maličko bych o tom věděl ;) )

Já sám jsem se pokoušel v minulosti přidat k několika open source skupinám, ale už jsem poučen a už to nikdy neudělám.

Nemohu se ubránit dojmu, že je to dobrá zpráva O :-)

21.1.2011 13:37 Miloslav Ponkrác
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

"Jinými slovy pokud chcete navrhnout vyhledávač, který skoro nic nenajde, vystačíte si s jedním počítačem."

Dál není třeba komentovat. Jednak jsem nepochopil na co reagujete, doporučuji si znovu mou větu přečíst, případně požádat někoho, kdo chápe český jazyk. Rozumím, že chápání sousloví jako "pro začátek", nebo "pokud se omezíte na určitý výsek internetu" jsou nad Vaše mentální možnosti.

"Nemohu se ubránit dojmu, že je to dobrá zpráva"

Je to velmi dobrá zpráva určitě pro mně. Jsem rád, že jsme dva co sdílíme nadšení.

22.1.2011 10:51 Martin Mareš
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

Rozumím, že chápání sousloví jako "pro začátek", nebo "pokud se omezíte na určitý výsek internetu" jsou nad Vaše mentální možnosti.

Nikolivěk, jen říkám, že abyste podstatně ušetřil na objemu dat, bude ten výsek muset být tak malý, že v něm nic užitečného nenajdete. (Nebo budete prohledávat konkrétní skupinku několika webů, na což vám pak zase stačí grep.)

21.1.2011 13:47 Miloslav Ponkrác
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

"A také si umět poradit s obrovským množstvím dat, což už tak snadné není. A také s hromadou podvodníků, kteří se vás stále snaží ošidit. A s autory webových stránek, serverů a operačních systémů, kteří jsou neobyčejně kreativní v tom, jak si lze libovolný standard vyložit. (Něco maličko bych o tom věděl"

A jaký je rozdíl v případě jakýchkoli reálných dat y téměř jakéhokoli prostředí?

Za svou praxi si nijak nevzpomínám, že by v jakémkoli projektu pracující kdekoli jakkoli s reálnými daty nebylo nutné řešit podobné věci.

Web je o to hůře, že ho bohužel standartizuje fušerská organizace W3C, která nebyla schopná ani nevrhnout gramatiku a způsob parsování HTML (to udělala až WHATWG). Není divu, že neexistující standardy jako je ypůsob parsování HTML si každý "vyložil po svém". W3C pak svou neschopnost svalila na autory browserů, snažila se zabít HTML a jela novou linku XHTML. Ale neschopnost se prostě nedá odestát, ten poslali do kopru ještě rychleji.

Kromě toho samozřejmě je silný tlak na prezentaci a reklamu stránek, takže je snaha podvádět a pomoci si i tak.

A k tomu samozřejmě, jako v každém oboru odchylky od standardu vzniklé nedůsledností.

Ukládání velkého množství dat je dnes snadnější, než kdy jindy. Kromě toho velikost dat se setsakra liší podle použitých datových struktur, což je část architektury hledače. Klidně i o mnoho řádů. Zde právě tvrdě závisí na zkušenostech a talentu člověka velmi mnoho.

22.1.2011 10:49 Martin Mareš
Rozbalit Rozbalit vše Re: Postavme si vlastni internetovy vyhledavac

A jaký je rozdíl v případě jakýchkoli reálných dat y téměř jakéhokoli prostředí?

Obvykle tvoří většinu dat náhodný šum, zde tvoří většinu zlomyslně vyráběný šum. To je velký rozdíl.

Web je o to hůře, že ho bohužel standartizuje fušerská organizace W3C, která nebyla schopná ani nevrhnout gramatiku a způsob parsování HTML

W3C se pokud vím standartizací nezabývá (není to spolek vexilologů), co se standardizace týče, není na tom zase tak špatně. Starší verze HTML dost jasně říkaly, že se jedná o speciální případ SGML, a SGML má parsovací pravidla definovaná přesně. Přesný standard existuje, jen ho zdá se skoro nikdo nedočetl do konce.

Ukládání velkého množství dat je dnes snadnější, než kdy jindy. Kromě toho velikost dat se setsakra liší podle použitých datových struktur, což je část architektury hledače. Klidně i o mnoho řádů. Zde právě tvrdě závisí na zkušenostech a talentu člověka velmi mnoho.

Obecné řeči. Pokud tvrdíte, že to umíte lépe než všichni na světě, račte to předvést. Pakliže předvedete, smekám před vaším talentem. Pakliže nikoliv, nejspíš vás budou považovat za tlučhubu.

Založit nové vlákno • Nahoru

Tiskni Sdílej: