abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 17:33 | Nová verze

    Canonical vydal (email, blog, YouTube) Ubuntu 24.04 LTS Noble Numbat. Přehled novinek v poznámkách k vydání a také příspěvcích na blogu: novinky v desktopu a novinky v bezpečnosti. Vydány byly také oficiální deriváty Edubuntu, Kubuntu, Lubuntu, Ubuntu Budgie, Ubuntu Cinnamon, Ubuntu Kylin, Ubuntu MATE, Ubuntu Studio, Ubuntu Unity a Xubuntu. Jedná se o 10. LTS verzi.

    Ladislav Hagara | Komentářů: 4
    včera 14:22 | Komunita

    Na YouTube je k dispozici videozáznam z včerejšího Czech Open Source Policy Forum 2024.

    Ladislav Hagara | Komentářů: 1
    včera 13:22 | Nová verze

    Fossil (Wikipedie) byl vydán ve verzi 2.24. Jedná se o distribuovaný systém správy verzí propojený se správou chyb, wiki stránek a blogů s integrovaným webovým rozhraním. Vše běží z jednoho jediného spustitelného souboru a uloženo je v SQLite databázi.

    Ladislav Hagara | Komentářů: 0
    včera 12:44 | Nová verze

    Byla vydána nová stabilní verze 6.7 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 124. Přehled novinek i s náhledy v příspěvku na blogu. Vypíchnout lze Spořič paměti (Memory Saver) automaticky hibernující karty, které nebyly nějakou dobu používány nebo vylepšené Odběry (Feed Reader).

    Ladislav Hagara | Komentářů: 0
    včera 04:55 | Nová verze

    OpenJS Foundation, oficiální projekt konsorcia Linux Foundation, oznámila vydání verze 22 otevřeného multiplatformního prostředí pro vývoj a běh síťových aplikací napsaných v JavaScriptu Node.js (Wikipedie). V říjnu se verze 22 stane novou aktivní LTS verzí. Podpora je plánována do dubna 2027.

    Ladislav Hagara | Komentářů: 0
    včera 04:22 | Nová verze

    Byla vydána verze 8.2 open source virtualizační platformy Proxmox VE (Proxmox Virtual Environment, Wikipedie) založené na Debianu. Přehled novinek v poznámkách k vydání a v informačním videu. Zdůrazněn je průvodce migrací hostů z VMware ESXi do Proxmoxu.

    Ladislav Hagara | Komentářů: 0
    včera 04:11 | Nová verze

    R (Wikipedie), programovací jazyk a prostředí určené pro statistickou analýzu dat a jejich grafické zobrazení, bylo vydáno ve verzi 4.4.0. Její kódové jméno je Puppy Cup.

    Ladislav Hagara | Komentářů: 0
    24.4. 22:44 | IT novinky

    IBM kupuje společnost HashiCorp (Terraform, Packer, Vault, Boundary, Consul, Nomad, Waypoint, Vagrant, …) za 6,4 miliardy dolarů, tj. 35 dolarů za akcii.

    Ladislav Hagara | Komentářů: 12
    24.4. 15:55 | Nová verze

    Byl vydán TrueNAS SCALE 24.04 “Dragonfish”. Přehled novinek této open source storage platformy postavené na Debianu v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    24.4. 13:44 | IT novinky

    Oznámeny byly nové Raspberry Pi Compute Module 4S. Vedle původní 1 GB varianty jsou nově k dispozici také varianty s 2 GB, 4 GB a 8 GB paměti. Compute Modules 4S mají na rozdíl od Compute Module 4 tvar a velikost Compute Module 3+ a předchozích. Lze tak provést snadný upgrade.

    Ladislav Hagara | Komentářů: 0
    KDE Plasma 6
     (73%)
     (9%)
     (2%)
     (16%)
    Celkem 764 hlasů
     Komentářů: 4, poslední 6.4. 15:51
    Rozcestník
    Štítky: není přiřazen žádný štítek


    Vložit další komentář
    30.8.2020 18:07 Bherzet | skóre: 19 | blog: Bherzetův blog
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    30.8.2020 18:18 Bherzet | skóre: 19 | blog: Bherzetův blog
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    • říká se tomu rekurzivní stahování a umí to i třeba wget
    • mícháš dohromady velikost jedné stránky a počet stránek ke stažení
    • indexování znamená sestavování (databázového) indexu, ty to jen stahuješ a přímo zpracováváš/cachuješ
    30.8.2020 19:21 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    říká se tomu rekurzivní stahování a umí to i třeba wget
    Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?
    mícháš dohromady velikost jedné stránky a počet stránek ke stažení
    Slovo vela sa mysli ak to pouzivam ako mnoho (napr. V skupine je vela /ako mnozstvo/ muzov. A potom v skupine je vela velkych /ako mohutnych/ muzov). Prepisal som to na lepsie.
    indexování znamená sestavování (databázového) indexu, ty to jen stahuješ a přímo zpracováváš/cachuješ
    Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu). Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim. Stahujem vsetky temy. Cize mam index vsetkych tem fora na stranke. Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").Ale indexujem iba co ma zaujima. Napr. vyhlavac na obrazky nebude predsa spracuvavat mp3.
    debian.plus@protonmail.com
    Bystroushaak avatar 30.8.2020 21:12 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?
    Dokáže stahovat podle regexpu, včetně blacklistů a whitelistů. Nevím co je přiřadit pro každou URL vlastní název. Ukládá to na disk podle názvu / cesty a možná umí i nějaké další vymyšleniny. Na paralelní stahování je afaik lepší aria2.
    Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu). Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim. Stahujem vsetky temy. Cize mam index vsetkych tem fora na stranke. Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").Ale indexujem iba co ma zaujima. Napr. vyhlavac na obrazky nebude predsa spracuvavat mp3.
    Imho ta terminologie pochází z toho že dřív než vyhledávače byly na světě indexy; stránky které fungovaly jako rozcestníky se spoustou kategorií (lycos?). Když se přidávala nová stránka, jednalo se o indexování; akt přidávání do indexu. Pak přišly vyhledávače a prostě už se tomu tak říkalo, protože se pořád přidávaly stránky do indexu, i když automaticky. To co děláš ty je prostě jen rekurzivní stažení webu, které technicky vzato fakt s indexováním nemá nic společného, ale whatever, imho není úplně terminologicky špatné to takhle nazývat.
    30.8.2020 21:22 Bherzet | skóre: 19 | blog: Bherzetův blog
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Kdyby výstupem byl plochý seznam všech URL ke zpracování a tomu říkal index, tak by to dávalo smysl. Přitom on má frontu, která není implementovaná frontou, ale zásobníkem, nikde se nezmiňuje o tom, že by ji někam serializoval a prostě na celý ten blog chvíli čumíš, párkrát zakroutíš hlavou a pak ti teda secvakne, že „aha, jasně, mluví o rekurzivním procházení nějakého webu“. Ale jaký je smysl celého toho článku a o čem se vlastně snaží informovat, to je ve hvězdách.
    30.8.2020 21:40 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Nevím co je přiřadit pro každou URL vlastní název.
    Myslel som toto. Priklad je pre 1 subor.
    wget https://www.abclinuxu.cz/blog/analyza_greenie_20_04/2020/8/ako-dlho-bude-trvat-indexovanie-stranok -O https:__www.abclinuxu.cz_blog_analyza_greenie_20_04_2020_8_ako-dlho-bude-trvat-indexovanie-stranok
    debian.plus@protonmail.com
    Bystroushaak avatar 30.8.2020 21:45 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Nevím jestli to umí (dost možná jo, ale jsem to líný googlit). Co nechápu je proč ti vadí, že se to uloží jako blog/analyza_greenie_20_04/2020/8/ako-dlho-bude-trvat-indexovanie-stranok. Tedy do podsložek (jde to afaik vypnout).
    30.8.2020 21:52 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Lebo som vsetko chcel mat v jednom priecinku.

    Aj ked v zasade to je jedno na spracovanie, ci clovek pouzije ls htmls alebo find htmls -type f. Ale mat v jednom priecinku je pre cloveka prehladnejsie.
    debian.plus@protonmail.com
    Bystroushaak avatar 30.8.2020 22:04 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    mfw. Čím že to zpracováváš?
    31.8.2020 16:15 GeorgeWH | skóre: 42
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    :D :D :D :D :D
    1.9.2020 17:46 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    To len priklad som dal na bash (ako tisic slov).
    debian.plus@protonmail.com
    30.8.2020 21:13 Bherzet | skóre: 19 | blog: Bherzetův blog
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Ano, ale dokaze len urcitu url (trebars podla regularneho vyrazu) a dokaze ak, dam viac naraz stahovat priradit pre kazdu URL vlastny nazov?
    Dokáže stáhnout stránku, sesbírat z ní odkazy a ty pak rekurzivně procházet. Proto se tomu říká rekurzivní stahování a ne typ sťahovania sťahovanie webovej stránky/domény s množstvom stránok, ani stahování velikostí stránek, nebo co jsi to tam měl původně.
    Slovo vela sa mysli ak to pouzivam ako mnoho (napr. V skupine je vela /ako mnozstvo/ muzov. A potom v skupine je vela velkych /ako mohutnych/ muzov). Prepisal som to na lepsie.
    Já vím, co znamená slovo vela, ale nevím, jak to souvisí.
    Ako sa to vezme - zaindexuje to vyhlavac (stiahne si kopiu).
    1. Ty píšeš vyhledáváč?

    2. Stažení kopie není totéž co indexování.
    Mozno priamo nie je mojim zamerom indexovanie, ale aj tak to robim.
    Jakou používáš databázi? Jak je nakonfigurovaná? Na jakém hardwaru běží? Abych se z toho článku tedy dozvěděl, jak dlouho ti to indexování trvá…
    Ale jasne, indexujem aj stiahnutu stranku, lebo aj tam mozu byt odkaci (co na tej konkretnej aj stranke boli - widget "Podobne temy").
    Říkej si tomu jak chceš, ale mimo tvojí hlavu to nebude dávat smysl, protože indexování všude jinde znamená něco jiného.
    30.8.2020 22:09 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Jakou používáš databázi? Jak je nakonfigurovaná? Na jakém hardwaru běží? Abych se z toho článku tedy dozvěděl, jak dlouho ti to indexování trvá…
    Ziadny databaza a la MySql or PostgreSQL. Vlastne riesenie. V rozsahu do radu 10k v pohode. Odvtedy mam kod uz upraveny a prakticky funkcny na 1M. Limitom pri takej indexacie je najma stiahnutie zo servera. 1M chce CPU 0.9GHz.

    Mas uvedene celkovy pocet. Daj cez wget stiahnut a mas +- minimalne, kolko to bude trvat.

    Konkretne v pripade linuxforum.hu to bolo od 20.08 00:52 do 22.08 22:44.
    debian.plus@protonmail.com
    30.8.2020 22:11 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Říkej si tomu jak chceš, ale mimo tvojí hlavu to nebude dávat smysl, protože indexování všude jinde znamená něco jiného.
    Uzytok vysledneho grafu je najme pre indexovanie, kde pod pojmom indexovanie sa chape poznanie stromovej URL struktury na stranke.
    debian.plus@protonmail.com
    30.8.2020 21:03 Ahoj
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Bystroushaak avatar 30.8.2020 21:13 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Co je na ose X? Asi by nebylo od věci to popsat.
    30.8.2020 22:09 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    mas pridane v obrazku
    debian.plus@protonmail.com
    31.8.2020 11:04 jiwopene | skóre: 31 | blog: Od každého trochu…
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Pár poznámek:
    • LIFO asi není nejšťastnější možnost — Pokud procházíte velký web, je lepší třeba FIFO. Po stahování s LIFO v případě potíží (dojde úložný prostor, selhání serveru (zablokování Vašeho klienta), selhání sítě, …) zůstane malá, ale do hloubky projitá, část webu, kam vede prvních pár odkazů z hlavní stránky, což by mohly být pro AbcLinuxu například diskuze, na které odkazuje „Seznam živých diskuzí“ z Poradny, stažená. Stahování s FIFO projde web v případě neúplného stažení web víc do „šířky“ – všechny odkazy z hlavní stránky, pak hlouběji a hlouběji stejným způsobem jako u hlavní stránky.
    • Pozor na nekonečné smyčky — Pomocí wgetu jsem stahoval nějaký web (asi AbcL), a než jsem si toho všiml, vyprodukoval miliony souborů a adresářů (to opravdu nechcete mazat), protože našel odkaz na stránce adresa s číslem, který vede na adresa s číslem + 1. FIFO v téhle situaci bude sice stahovat do nekonečna, ale stihne před zacyklením stáhnout celkem smysluplnou část webu. LIFO by zůstal ve smyčce při první takové stránce. Chtělo by to detekci počítadla v URL nebo příliš podobných stránek. V případě, že nekonečné stahování nevadí, dává celkem smysl volit stránku ke stažení náhodně s pravděpodobností stažení rostoucí s její významností, což může být metrika založená na počtu stránek, které na ní odkazují, nebo na minimálním/průměrném počtu odkazů, které se musí projít než se na ní dostane z hlavní stránky.
    • Časování — Není moc košer stahovat stránky webu tak rychle, jak je to jen možné. Je dobré omezit počet požadavků za čas na stejný server a přenosovou rychlost, aby se server zbytečně nezatěžoval. Pokud se stahuje více webů, je dobré je při stahování mezi nimi přeskakovat.
    .sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
    Josef Kufner avatar 31.8.2020 13:07 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    BFS vs. DFS
    Hello world ! Segmentation fault (core dumped)
    31.8.2020 14:05 Gamaray
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Konečně konstruktivní komentář v záplavě šikany.
    31.8.2020 17:40 jiwopene | skóre: 31 | blog: Od každého trochu…
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    K LIFO a FIFO: V tomto článku bylo původně místo FIFO napsané LIFO. Článek o stahování s LIFO vyšel o den později.
    .sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
    31.8.2020 18:01 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Ano. V popise neuvadzam detailnejsie implmentaciu. Takze rozdiel ze som sa zmylil (ano, zamenil som pojmy FIFO a LILO), alebo nieco nesedi, tak by musel poznat charakteristiky. Pojmy LILO a FIFO som si lepsie nastudoval a sam seba opravil.
    debian.plus@protonmail.com
    31.8.2020 19:56 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Pozor na nekonečné smyčky
    Obaval som sa toho, ale realne ziadna nenastala. Proste pri indexovany overujem URL ci uz bola indexovana.
    Časování
    Bral som ohlad aj na druhu stranu. Testoval som, kym som najprv stahoval. A v user agent posielam svoj mail, ak by im to nieco vadilo.
    debian.plus@protonmail.com
    1.9.2020 12:03 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Na ten ti tak někdo bude psát.

    Pokud server vyhodnotí, že je ten tvůj stroj příliš dotěrný, tak tě sekne a budeš mít po ptákách.
    1.9.2020 12:49 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    A preci nie? Moje dopytovania nie je o 1-2 rady vyssie ako zvycajne zataz alebo zvycajna narazova zataz. Ked prehladavace tahaju cez 8 socketov max pri HTTP 1.1.

    A ak je nieco divne, tak sa na to spravca pozrie.
    debian.plus@protonmail.com
    1.9.2020 14:04 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Pokud se dotazuješ slušně, je vše ok. Nepotřebuje tvůj mail. Pokud jsi vlezlý, taky nepotřebuje tvůj mail. Omezí ti počet dotazů. Jinými slovy, nikoho nezajímá jestli ten mail co uvedeš je tvůj, nebo vycucaný z prstu.

    Za sebe mohu říct jen tolik, že bych nikdy na žádný takový mail nepsal, protože může být klidně podvržený s cílem, zprostředkovaně někoho obtěžovat komunikací ohledně činnosti se kterou nemusí mít nic společného.
    1.9.2020 14:19 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Ano robim slusne :) private IP.
    debian.plus@protonmail.com
    1.9.2020 14:11 jiwopene | skóre: 31 | blog: Od každého trochu…
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Není na to hlavička From?
    .sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
    1.9.2020 14:17 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Iba ak v maily.

    Defaulne sa do logov nezapisuje cele HTTP requesty, ale iba nasledovne.
    debian.plus@protonmail.com
    1.9.2020 14:18 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Tam si můžeš napsat co chceš.
    1.9.2020 14:27 jiwopene | skóre: 31 | blog: Od každého trochu…
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Dle RFC 7231:
    § 5.5.1

    The "From" header field contains an Internet email address for a human user who controls the requesting user agent.

    […]

    A robotic user agent SHOULD send a valid From header field so that the person responsible for running the robot can be contacted if problems occur on servers, such as if the robot is sending excessive, unwanted, or invalid requests.
    .sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
    1.9.2020 15:41 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    To RFC vznikalo v době, kdy se považovalo za samozřejmé, že se chovají všichni slušně. Bohužel, dnes je situace jiná.

    Je tedy fajn, že uvádí validní údaje, ale silně pochybuji, že by na to bral někdo zřetel.
    1.9.2020 17:01 z_sk | skóre: 34 | blog: analyzy
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Ja ho uvadzam ako: User-Agent: my@email
    debian.plus@protonmail.com
    2.9.2020 15:27 jiwopene | skóre: 31 | blog: Od každého trochu…
    Rozbalit Rozbalit vše Re: Ako dlho bude trvať indexovanie stránok? (akt.)
    Na to se používá většinou (alespoň tak to vidím v lozích) „plusová notace“: Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)
    .sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.