Portál AbcLinuxu, 4. května 2025 12:32

Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
30.8.2020 18:07 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Odpovědět | Sbalit | Link | Blokovat | Admin
https://www.youtube.com/watch?v=NOkLcZfjkC4
30.8.2020 18:18 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Odpovědět | Sbalit | Link | Blokovat | Admin
30.8.2020 19:21 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
říká se tomu rekurzivní stahování a umí to i třeba wget
Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?
mícháš dohromady velikost jedné stránky a počet stránek ke stažení
Slovo vela sa mysli ak to pouzivam ako mnoho (napr. V skupine je vela /ako mnozstvo/ muzov. A potom v skupine je vela velkych /ako mohutnych/ muzov). Prepisal som to na lepsie.
indexování znamená sestavování (databázového) indexu, ty to jen stahuješ a přímo zpracováváš/cachuješ
Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu). Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim. Stahujem vsetky temy. Cize mam index vsetkych tem fora na stranke. Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").Ale indexujem iba co ma zaujima. Napr. vyhlavac na obrazky nebude predsa spracuvavat mp3.
debian.plus@protonmail.com
Bystroushaak avatar 30.8.2020 21:12 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?
Dokáže stahovat podle regexpu, včetně blacklistů a whitelistů. Nevím co je přiřadit pro každou URL vlastní název. Ukládá to na disk podle názvu / cesty a možná umí i nějaké další vymyšleniny. Na paralelní stahování je afaik lepší aria2.
Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu). Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim. Stahujem vsetky temy. Cize mam index vsetkych tem fora na stranke. Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").Ale indexujem iba co ma zaujima. Napr. vyhlavac na obrazky nebude predsa spracuvavat mp3.
Imho ta terminologie pochází z toho že dřív než vyhledávače byly na světě indexy; stránky které fungovaly jako rozcestníky se spoustou kategorií (lycos?). Když se přidávala nová stránka, jednalo se o indexování; akt přidávání do indexu. Pak přišly vyhledávače a prostě už se tomu tak říkalo, protože se pořád přidávaly stránky do indexu, i když automaticky. To co děláš ty je prostě jen rekurzivní stažení webu, které technicky vzato fakt s indexováním nemá nic společného, ale whatever, imho není úplně terminologicky špatné to takhle nazývat.
30.8.2020 21:22 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Kdyby výstupem byl plochý seznam všech URL ke zpracování a tomu říkal index, tak by to dávalo smysl. Přitom on má frontu, která není implementovaná frontou, ale zásobníkem, nikde se nezmiňuje o tom, že by ji někam serializoval a prostě na celý ten blog chvíli čumíš, párkrát zakroutíš hlavou a pak ti teda secvakne, že „aha, jasně, mluví o rekurzivním procházení nějakého webu“. Ale jaký je smysl celého toho článku a o čem se vlastně snaží informovat, to je ve hvězdách.
30.8.2020 21:40 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Nevím co je přiřadit pro každou URL vlastní název.
Myslel som toto. Priklad je pre 1 subor.
wget https://www.abclinuxu.cz/blog/analyza_greenie_20_04/2020/8/ako-dlho-bude-trvat-indexovanie-stranok -O https:__www.abclinuxu.cz_blog_analyza_greenie_20_04_2020_8_ako-dlho-bude-trvat-indexovanie-stranok
debian.plus@protonmail.com
Bystroushaak avatar 30.8.2020 21:45 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Nevím jestli to umí (dost možná jo, ale jsem to líný googlit). Co nechápu je proč ti vadí, že se to uloží jako blog/analyza_greenie_20_04/2020/8/ako-dlho-bude-trvat-indexovanie-stranok. Tedy do podsložek (jde to afaik vypnout).
30.8.2020 21:52 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Lebo som vsetko chcel mat v jednom priecinku.

Aj ked v zasade to je jedno na spracovanie, ci clovek pouzije ls htmls alebo find htmls -type f. Ale mat v jednom priecinku je pre cloveka prehladnejsie.
debian.plus@protonmail.com
Bystroushaak avatar 30.8.2020 22:04 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
mfw. Čím že to zpracováváš?
31.8.2020 16:15 GeorgeWH | skóre: 42
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
:D :D :D :D :D
1.9.2020 17:46 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
To len priklad som dal na bash (ako tisic slov).
debian.plus@protonmail.com
30.8.2020 21:13 Bherzet | skóre: 19 | blog: Bherzetův blog
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?
Dokáže stáhnout stránku, sesbírat z ní odkazy a ty pak rekurzivně procházet. Proto se tomu říká rekurzivní stahování a ne typ sťahovania sťahovanie webovej stránky/domény s množstvom stránok, ani stahování velikostí stránek, nebo co jsi to tam měl původně.
Slovo vela sa mysli ak to pouzivam ako mnoho (napr. V skupine je vela /ako mnozstvo/ muzov. A potom v skupine je vela velkych /ako mohutnych/ muzov). Prepisal som to na lepsie.
Já vím, co znamená slovo vela, ale nevím, jak to souvisí.
Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu).
1. Ty píšeš vyhledáváč?

2. Stažení kopie není totéž co indexování.
Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim.
Jakou používáš databázi? Jak je nakonfigurovaná? Na jakém hardwaru běží? Abych se z toho článku tedy dozvěděl, jak dlouho ti to indexování trvá…
Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").
Říkej si tomu jak chceš, ale mimo tvojí hlavu to nebude dávat smysl, protože indexování všude jinde znamená něco jiného.
30.8.2020 22:09 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Jakou používáš databázi? Jak je nakonfigurovaná? Na jakém hardwaru běží? Abych se z toho článku tedy dozvěděl, jak dlouho ti to indexování trvá…
Ziadny databaza a la MySql or PostgreSQL. Vlastne riesenie. V rozsahu do radu 10k v pohode. Odvtedy mam kod uz upraveny a prakticky funkcny na 1M. Limitom pri takej indexacie je najma stiahnutie zo servera. 1M chce CPU 0.9GHz.

Mas uvedene celkovy pocet. Daj cez wget stiahnut a mas +- minimalne, kolko to bude trvat.

Konkretne v pripade linuxforum.hu to bolo od 20.08 00:52 do 22.08 22:44.
debian.plus@protonmail.com
30.8.2020 22:11 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Říkej si tomu jak chceš, ale mimo tvojí hlavu to nebude dávat smysl, protože indexování všude jinde znamená něco jiného.
Uzytok vysledneho grafu je najme pre indexovanie, kde pod pojmom indexovanie sa chape poznanie stromovej URL struktury na stranke.
debian.plus@protonmail.com
30.8.2020 21:03 Ahoj
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Odpovědět | Sbalit | Link | Blokovat | Admin
něco pro tebe;-)
Bystroushaak avatar 30.8.2020 21:13 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Odpovědět | Sbalit | Link | Blokovat | Admin
Co je na ose X? Asi by nebylo od věci to popsat.
blog.rfox.eu
30.8.2020 22:09 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
mas pridane v obrazku
debian.plus@protonmail.com
31.8.2020 11:04 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Odpovědět | Sbalit | Link | Blokovat | Admin
Pár poznámek:
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
Josef Kufner avatar 31.8.2020 13:07 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
BFS vs. DFS
Hello world ! Segmentation fault (core dumped)
31.8.2020 14:05 Gamaray
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Konečně konstruktivní komentář v záplavě šikany.
31.8.2020 17:40 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
K LIFO a FIFO: V tomto článku bylo původně místo FIFO napsané LIFO. Článek o stahování s LIFO vyšel o den později.
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
31.8.2020 18:01 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Ano. V popise neuvadzam detailnejsie implmentaciu. Takze rozdiel ze som sa zmylil (ano, zamenil som pojmy FIFO a LILO), alebo nieco nesedi, tak by musel poznat charakteristiky. Pojmy LILO a FIFO som si lepsie nastudoval a sam seba opravil.
debian.plus@protonmail.com
31.8.2020 19:56 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Pozor na nekonečné smyčky
Obaval som sa toho, ale realne ziadna nenastala. Proste pri indexovany overujem URL ci uz bola indexovana.
Časování
Bral som ohlad aj na druhu stranu. Testoval som, kym som najprv stahoval. A v user agent posielam svoj mail, ak by im to nieco vadilo.
debian.plus@protonmail.com
1.9.2020 12:03 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Na ten ti tak někdo bude psát.

Pokud server vyhodnotí, že je ten tvůj stroj příliš dotěrný, tak tě sekne a budeš mít po ptákách.
1.9.2020 12:49 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
A preci nie? Moje dopytovania nie je o 1-2 rady vyssie ako zvycajne zataz alebo zvycajna narazova zataz. Ked prehladavace tahaju cez 8 socketov max pri HTTP 1.1.

A ak je nieco divne, tak sa na to spravca pozrie.
debian.plus@protonmail.com
1.9.2020 14:04 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Pokud se dotazuješ slušně, je vše ok. Nepotřebuje tvůj mail. Pokud jsi vlezlý, taky nepotřebuje tvůj mail. Omezí ti počet dotazů. Jinými slovy, nikoho nezajímá jestli ten mail co uvedeš je tvůj, nebo vycucaný z prstu.

Za sebe mohu říct jen tolik, že bych nikdy na žádný takový mail nepsal, protože může být klidně podvržený s cílem, zprostředkovaně někoho obtěžovat komunikací ohledně činnosti se kterou nemusí mít nic společného.
1.9.2020 14:19 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Ano robim slusne :) private IP.
debian.plus@protonmail.com
1.9.2020 14:11 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Není na to hlavička From?
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
1.9.2020 14:17 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Iba ak v maily.

Defaulne sa do logov nezapisuje cele HTTP requesty, ale iba nasledovne.
debian.plus@protonmail.com
1.9.2020 14:18 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Tam si můžeš napsat co chceš.
1.9.2020 14:27 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Dle RFC 7231:
§ 5.5.1

The "From" header field contains an Internet email address for a human user who controls the requesting user agent.

[…]

A robotic user agent SHOULD send a valid From header field so that the person responsible for running the robot can be contacted if problems occur on servers, such as if the robot is sending excessive, unwanted, or invalid requests.
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
1.9.2020 15:41 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
To RFC vznikalo v době, kdy se považovalo za samozřejmé, že se chovají všichni slušně. Bohužel, dnes je situace jiná.

Je tedy fajn, že uvádí validní údaje, ale silně pochybuji, že by na to bral někdo zřetel.
1.9.2020 17:01 z_sk | skóre: 34 | blog: analyzy
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Ja ho uvadzam ako: User-Agent: my@email
debian.plus@protonmail.com
2.9.2020 15:27 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
Na to se používá většinou (alespoň tak to vidím v lozích) „plusová notace“: Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)
.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.