I. Ako dlho bude trvať indexovanie stránok?

AbcLinuxu:/ Blogy / analyzy / I. Ako dlho bude trvať indexovanie stránok? - FIFO (akt. 2)

Štítky: Internet, stahování

I. Ako dlho bude trvať indexovanie stránok? - FIFO (akt. 2)

30.8.2020 15:35 | Přečteno: 1477× | analýza | poslední úprava: 31.8.2020 17:21

Pri sťahovaní webovej stránky/domény s množstvom stránok by bolo dobré vedieť, ako asi dlho bude trvať celkové sťahovanie. Kedže sťahovanie sa riadia istými pravidlami (resp. limitmi), môžeme dostať istú charakteristiku.
Fóra zo linuxforum.hu som sťahoval typom sťahovania sťahovanie webovej stránky/domény s množstvom stránok. Takže na základe tohto reálneho sťahovania urobím charakteristiku tohto typu sťahovania.

Charakteristika sťahovania

Sťahovací bot začína sťahovať nejakou úvodnou stránkou a všetky vyhovujúce odkazy pridá do zoznamu URL na indexovanie (pokiaľ nie je už priradená na indexovanie alebo už nebola stiahnutá). Typ zoznám URL na indexovanie je FIFO. Sťahovanie skončí ak zoznám URL na indexovanie nemá žiadnu položku na sťahovanie.

Charakteristika sťahovania linuxforum.hu

Oprava 2) - zoznamu URL na indexovanie bol v skutocnosti FIFO a nie LIFO.

Hodnocení: 22 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

30.8.2020 18:07 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Odpovědět | Sbalit | Link | Blokovat | Admin

https://www.youtube.com/watch?v=NOkLcZfjkC4

30.8.2020 18:18 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Odpovědět | Sbalit | Link | Blokovat | Admin

říká se tomu rekurzivní stahování a umí to i třeba wget
mícháš dohromady velikost jedné stránky a počet stránek ke stažení
indexování znamená sestavování (databázového) indexu, ty to jen stahuješ a přímo zpracováváš/cachuješ

30.8.2020 19:21 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

říká se tomu rekurzivní stahování a umí to i třeba wget

Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?

mícháš dohromady velikost jedné stránky a počet stránek ke stažení

Slovo vela sa mysli ak to pouzivam ako mnoho (napr. V skupine je vela /ako mnozstvo/ muzov. A potom v skupine je vela velkych /ako mohutnych/ muzov). Prepisal som to na lepsie.

indexování znamená sestavování (databázového) indexu, ty to jen stahuješ a přímo zpracováváš/cachuješ

Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu). Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim. Stahujem vsetky temy. Cize mam index vsetkych tem fora na stranke. Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").Ale indexujem iba co ma zaujima. Napr. vyhlavac na obrazky nebude predsa spracuvavat mp3.

debian.plus@protonmail.com

30.8.2020 21:12 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?

Dokáže stahovat podle regexpu, včetně blacklistů a whitelistů. Nevím co je přiřadit pro každou URL vlastní název. Ukládá to na disk podle názvu / cesty a možná umí i nějaké další vymyšleniny. Na paralelní stahování je afaik lepší aria2.

Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu). Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim. Stahujem vsetky temy. Cize mam index vsetkych tem fora na stranke. Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").Ale indexujem iba co ma zaujima. Napr. vyhlavac na obrazky nebude predsa spracuvavat mp3.

Imho ta terminologie pochází z toho že dřív než vyhledávače byly na světě indexy; stránky které fungovaly jako rozcestníky se spoustou kategorií (lycos?). Když se přidávala nová stránka, jednalo se o indexování; akt přidávání do indexu. Pak přišly vyhledávače a prostě už se tomu tak říkalo, protože se pořád přidávaly stránky do indexu, i když automaticky. To co děláš ty je prostě jen rekurzivní stažení webu, které technicky vzato fakt s indexováním nemá nic společného, ale whatever, imho není úplně terminologicky špatné to takhle nazývat.

blog.rfox.eu | Lessons learned from games

30.8.2020 21:22 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Kdyby výstupem byl plochý seznam všech URL ke zpracování a tomu říkal index, tak by to dávalo smysl. Přitom on má frontu, která není implementovaná frontou, ale zásobníkem, nikde se nezmiňuje o tom, že by ji někam serializoval a prostě na celý ten blog chvíli čumíš, párkrát zakroutíš hlavou a pak ti teda secvakne, že „aha, jasně, mluví o rekurzivním procházení nějakého webu“. Ale jaký je smysl celého toho článku a o čem se vlastně snaží informovat, to je ve hvězdách.

30.8.2020 21:40 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Nevím co je přiřadit pro každou URL vlastní název.

Myslel som toto. Priklad je pre 1 subor.

wget https://www.abclinuxu.cz/blog/analyza_greenie_20_04/2020/8/ako-dlho-bude-trvat-indexovanie-stranok -O https:__www.abclinuxu.cz_blog_analyza_greenie_20_04_2020_8_ako-dlho-bude-trvat-indexovanie-stranok

debian.plus@protonmail.com

30.8.2020 21:45 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Nevím jestli to umí (dost možná jo, ale jsem to líný googlit). Co nechápu je proč ti vadí, že se to uloží jako blog/analyza_greenie_20_04/2020/8/ako-dlho-bude-trvat-indexovanie-stranok. Tedy do podsložek (jde to afaik vypnout).

blog.rfox.eu | Lessons learned from games

30.8.2020 21:52 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Lebo som vsetko chcel mat v jednom priecinku.

Aj ked v zasade to je jedno na spracovanie, ci clovek pouzije ls htmls alebo find htmls -type f. Ale mat v jednom priecinku je pre cloveka prehladnejsie.

debian.plus@protonmail.com

30.8.2020 22:04 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

mfw. Čím že to zpracováváš?

blog.rfox.eu | Lessons learned from games

31.8.2020 16:15 GeorgeWH | skóre: 42
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

:D :D :D :D :D

1.9.2020 17:46 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

To len priklad som dal na bash (ako tisic slov).

debian.plus@protonmail.com

30.8.2020 21:13 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?

Dokáže stáhnout stránku, sesbírat z ní odkazy a ty pak rekurzivně procházet. Proto se tomu říká rekurzivní stahování a ne typ sťahovania sťahovanie webovej stránky/domény s množstvom stránok, ani stahování velikostí stránek, nebo co jsi to tam měl původně.

Slovo vela sa mysli ak to pouzivam ako mnoho (napr. V skupine je vela /ako mnozstvo/ muzov. A potom v skupine je vela velkych /ako mohutnych/ muzov). Prepisal som to na lepsie.

Já vím, co znamená slovo vela, ale nevím, jak to souvisí.

Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu).

1. Ty píšeš vyhledáváč?

2. Stažení kopie není totéž co indexování.

Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim.

Jakou používáš databázi? Jak je nakonfigurovaná? Na jakém hardwaru běží? Abych se z toho článku tedy dozvěděl, jak dlouho ti to indexování trvá…

Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").

Říkej si tomu jak chceš, ale mimo tvojí hlavu to nebude dávat smysl, protože indexování všude jinde znamená něco jiného.

30.8.2020 22:09 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Jakou používáš databázi? Jak je nakonfigurovaná? Na jakém hardwaru běží? Abych se z toho článku tedy dozvěděl, jak dlouho ti to indexování trvá…

Ziadny databaza a la MySql or PostgreSQL. Vlastne riesenie. V rozsahu do radu 10k v pohode. Odvtedy mam kod uz upraveny a prakticky funkcny na 1M. Limitom pri takej indexacie je najma stiahnutie zo servera. 1M chce CPU 0.9GHz.

Mas uvedene celkovy pocet. Daj cez wget stiahnut a mas +- minimalne, kolko to bude trvat.

Konkretne v pripade linuxforum.hu to bolo od 20.08 00:52 do 22.08 22:44.

debian.plus@protonmail.com

30.8.2020 22:11 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Říkej si tomu jak chceš, ale mimo tvojí hlavu to nebude dávat smysl, protože indexování všude jinde znamená něco jiného.

Uzytok vysledneho grafu je najme pre indexovanie, kde pod pojmom indexovanie sa chape poznanie stromovej URL struktury na stranke.

debian.plus@protonmail.com

30.8.2020 21:03 Ahoj
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Odpovědět | Sbalit | Link | Blokovat | Admin

něco pro tebe ;-)

30.8.2020 21:13 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Odpovědět | Sbalit | Link | Blokovat | Admin

Co je na ose X? Asi by nebylo od věci to popsat.

blog.rfox.eu | Lessons learned from games

30.8.2020 22:09 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

mas pridane v obrazku

debian.plus@protonmail.com

31.8.2020 11:04 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Odpovědět | Sbalit | Link | Blokovat | Admin

Pár poznámek:

LIFO asi není nejšťastnější možnost — Pokud procházíte velký web, je lepší třeba FIFO. Po stahování s LIFO v případě potíží (dojde úložný prostor, selhání serveru (zablokování Vašeho klienta), selhání sítě, …) zůstane malá, ale do hloubky projitá, část webu, kam vede prvních pár odkazů z hlavní stránky, což by mohly být pro AbcLinuxu například diskuze, na které odkazuje „Seznam živých diskuzí“ z Poradny, stažená. Stahování s FIFO projde web v případě neúplného stažení web víc do „šířky“ – všechny odkazy z hlavní stránky, pak hlouběji a hlouběji stejným způsobem jako u hlavní stránky.
Pozor na nekonečné smyčky — Pomocí wgetu jsem stahoval nějaký web (asi AbcL), a než jsem si toho všiml, vyprodukoval miliony souborů a adresářů (to opravdu nechcete mazat), protože našel odkaz na stránce adresa s číslem, který vede na adresa s číslem + 1. FIFO v téhle situaci bude sice stahovat do nekonečna, ale stihne před zacyklením stáhnout celkem smysluplnou část webu. LIFO by zůstal ve smyčce při první takové stránce. Chtělo by to detekci počítadla v URL nebo příliš podobných stránek. V případě, že nekonečné stahování nevadí, dává celkem smysl volit stránku ke stažení náhodně s pravděpodobností stažení rostoucí s její významností, což může být metrika založená na počtu stránek, které na ní odkazují, nebo na minimálním/průměrném počtu odkazů, které se musí projít než se na ní dostane z hlavní stránky.
Časování — Není moc košer stahovat stránky webu tak rychle, jak je to jen možné. Je dobré omezit počet požadavků za čas na stejný server a přenosovou rychlost, aby se server zbytečně nezatěžoval. Pokud se stahuje více webů, je dobré je při stahování mezi nimi přeskakovat.

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

31.8.2020 13:07 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

BFS vs. DFS

Hello world ! Segmentation fault (core dumped)

31.8.2020 14:05 Gamaray
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Konečně konstruktivní komentář v záplavě šikany.

31.8.2020 17:40 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

K LIFO a FIFO: V tomto článku bylo původně místo FIFO napsané LIFO. Článek o stahování s LIFO vyšel o den později.

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

31.8.2020 18:01 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Ano. V popise neuvadzam detailnejsie implmentaciu. Takze rozdiel ze som sa zmylil (ano, zamenil som pojmy FIFO a LILO), alebo nieco nesedi, tak by musel poznat charakteristiky. Pojmy LILO a FIFO som si lepsie nastudoval a sam seba opravil.

debian.plus@protonmail.com

31.8.2020 19:56 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Pozor na nekonečné smyčky

Obaval som sa toho, ale realne ziadna nenastala. Proste pri indexovany overujem URL ci uz bola indexovana.

Časování

Bral som ohlad aj na druhu stranu. Testoval som, kym som najprv stahoval. A v user agent posielam svoj mail, ak by im to nieco vadilo.

debian.plus@protonmail.com

1.9.2020 12:03 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Na ten ti tak někdo bude psát.

Pokud server vyhodnotí, že je ten tvůj stroj příliš dotěrný, tak tě sekne a budeš mít po ptákách.

1.9.2020 12:49 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

A preci nie? Moje dopytovania nie je o 1-2 rady vyssie ako zvycajne zataz alebo zvycajna narazova zataz. Ked prehladavace tahaju cez 8 socketov max pri HTTP 1.1.

A ak je nieco divne, tak sa na to spravca pozrie.

debian.plus@protonmail.com

1.9.2020 14:04 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Pokud se dotazuješ slušně, je vše ok. Nepotřebuje tvůj mail. Pokud jsi vlezlý, taky nepotřebuje tvůj mail. Omezí ti počet dotazů. Jinými slovy, nikoho nezajímá jestli ten mail co uvedeš je tvůj, nebo vycucaný z prstu.

Za sebe mohu říct jen tolik, že bych nikdy na žádný takový mail nepsal, protože může být klidně podvržený s cílem, zprostředkovaně někoho obtěžovat komunikací ohledně činnosti se kterou nemusí mít nic společného.

1.9.2020 14:19 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Ano robim slusne :) private IP.

debian.plus@protonmail.com

1.9.2020 14:11 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Není na to hlavička From?

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

1.9.2020 14:17 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Iba ak v maily.

Defaulne sa do logov nezapisuje cele HTTP requesty, ale iba nasledovne.

debian.plus@protonmail.com

1.9.2020 14:18 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Tam si můžeš napsat co chceš.

1.9.2020 14:27 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Dle RFC 7231:

§ 5.5.1
The "From" header field contains an Internet email address for a human user who controls the requesting user agent.
[…]
A robotic user agent SHOULD send a valid From header field so that the person responsible for running the robot can be contacted if problems occur on servers, such as if the robot is sending excessive, unwanted, or invalid requests.

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

1.9.2020 15:41 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

To RFC vznikalo v době, kdy se považovalo za samozřejmé, že se chovají všichni slušně. Bohužel, dnes je situace jiná.

Je tedy fajn, že uvádí validní údaje, ale silně pochybuji, že by na to bral někdo zřetel.

1.9.2020 17:01 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Ja ho uvadzam ako: User-Agent: my@email

debian.plus@protonmail.com

2.9.2020 15:27 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)

Na to se používá většinou (alespoň tak to vidím v lozích) „plusová notace“: Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

Založit nové vlákno • Nahoru