Portál AbcLinuxu, 12. května 2025 01:38

Dotaz: kontrola změny WWW stránek

4.1.2006 15:41 pavel
kontrola změny WWW stránek
Přečteno: 180×
Odpovědět | Admin
Dobrý den, potřebuji udělat program na kontrolu změny obsahu www stránek. Nevíte náhodou na jakém principu tato kontrola probíhá. Budu to programovat v Javě, ale princip bude všude stejný. Dík za rady.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

4.1.2006 16:00 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Odpovědět | | Sbalit | Link | Blokovat | Admin
Třeba nějaká hashfunkce?
4.1.2006 16:12 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Pokud by chtěl kontrolovat obsah, tak by to určitě nepůjde jen tak porovnat -- zkus si párkrát po sobě
wget -q -O - http://www.abclinuxu.cz/  | md5sum 
To by pak musel nějak odhadnout, kdy už se dvě verze liší a kdy ne.
4.1.2006 16:16 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Potrava pro google by mohla být "text distance algorithm", najde to, víc asi poradit nedokážu.
4.1.2006 16:19 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
K čemu je asi náhled...? :-)

... najde to třeba Levenshteinův algoritmus.
4.1.2006 16:27 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Ale tento problém je způsoben dynamicky generovaným obsahem (reklamou) skus si několikrát po sobě třeba: wget -q -O http://www.m4r3k.org/ | md5sum což je statická stránka bez reklamy.
4.1.2006 16:38 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Nejen reklamou, stačí, aby na stránce bylo datum, kdy byla vygenerována, aby se u článku změnilo "dnes" na "včera" apod... Předpokládám, že případný uživatel toho programu by tohle za změnu stránky nepovažoval, proto bude potřeba použít nějakou heuristiku.
4.1.2006 16:46 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Ale změna to je :-)
4.1.2006 16:01 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: kontrola změny WWW stránek
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nejsem specialista na webové programování, ale servery vrací v hlavičce odpovědi položku Last-Modified, viz wikipedia. Eventuálně použít položka If-Modified-Since, ale to už příslušné rfc1945 (HTTP 1.0).
When your hammer is C++, everything begins to look like a thumb.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.