Portál AbcLinuxu, 5. května 2024 10:07

<guid> v RSS - malej, ale šikovnej

17.2.2007 23:55 | Přečteno: 2706× | Web | poslední úprava: 22.2.2007 08:49

Malý, nenápadný, ale velmi šikovný element, to je <guid>. Je proto s podivem, že ho spousta webmasterů ignoruje.

Pokud nepíšete RSS kanály ručně (ahoj, Žirafko :-) ), nepíšete generátor RSS kanálů ani se nechystáte RSS kanály zpracovávat, asi Vám příspěvek k ničemu nebude.

Element <guid> se může nacházet v RSS kanálu jako potomek elementu <item>

Přestože specifikace praví, že element je nepovinný, domnívám se, že je silně doporučený a zkusím jeho (ne)použití demonstrovat krátkým příkladem.

Scénář 1: Nepoužívám <guid>

  1. Napíšu článek (třeba, zdroj, fotku, či cokoliv, co přijde do RSS feedu.
  2. V RSS feedu se objeví nová položka, uživatelé si ji přečtou
  3. V diskusi pod článkem se kromě obligátních vět jako "Úroveň tohoto .... upadá" objeví i upozornění na překlep.
  4. Autor překlep opraví, překlep byl ale v perexu článku, takže se projeví i v RSS feedu.
  5. RSS čtečka zjistí, že existuje nějaká nová položka a upozorní uživatele.[1]
  6. Uživatel se podívá a diví se, že má ve čtečce dva články se stejným nadpisem. Ten zvídavější zjistí, že se v perexu liší o jedno písmenko.
  7. Na laskavém čtenáři tohoto zápisku nechávám rozhodnout, jestli se bude uživatel naštvaný na autora čtečky, na majitele blogu nebo na ještírky.

Pokud často opravuji chyby v kanálech, míra frustrace uživatele roste s počtem oprav. Je věcí dalšího výzkumu, kde přesně se nachází hranice, po které si uživatel smaže kanál z čtečky.

Pěknou ukázkou "nepoužití" elementu guid byla například oblíbená Latrína v období, když ladili automatický generátor textů - několikrát denně se měnil perex a tak pro moji čtečku byl dgx produktivnější než iDNES, iHNED a iLblog dohromady.

Scénář 2: Používám <guid>

dtto jako nahoře, protože však feed obsahuje u položek item element guid s jedinečným identifikátorem článku. Inteligentní čtečka pak při aktualizaci pozná, že článek není nový, ale pouze opravený a uživatel se nebude divit.

Ukázka ve feedu

Ukázka z živého feedu - nezajímavé elementy (date a category) odstraněny.

<item>
   <title>Expedice Sacha 2006</title>
   <link>http://www.cestovatel.cz/clanky/expedice-sacha-2006/</link>
   <guid isPermaLink="false">7571-cestovatel.cz</guid>
   <description>&lt;p&gt;Po společné expedici do Mongolska za Olgojem Chorchojem v roce 2004 jsme
              se dohodli s Ivanem Mackerlem na cestě do severských lesů ruské tajgy,
              kde podle legend vyprávěných jakutskými lovci se nachází podivná obydlí &ndash; kotle z neznámého
              velice tvrdého načervenalého kovu.&lt;/p&gt;</description>
   <comments>http://www.cestovatel.cz/clanky/expedice-sacha-2006/nazory/</comments>
</item>

Obsahem elementu guid je unikátní identifikátor publikovaného článku (resp.zdroje). Obvykle bývá obsahem elementu trvalý odkaz na článek, nepředpokládá se, že článek bude po publikaci měnit svoji adresu. Pokud se adresa občas mění, je možné elementu guid přidat atribut isPermaLink="false" a jako obsah elementu použít libovolný rozumný identifikátor - například interní číslo dokumentu, apod. - podobně jako to je použité v ukázce

Poznámka: pokud použijete jako obsah elementu pouze číslo, pravděpodobně na vás Feed Validator zakřičí, že nepoužíváte dostatečně unikátní hodnotu a doporučí něco, co obsahuje jméno Vašeho webu.

Závěr

Pro testování feedu na obvyklé nectnosti (včetně absence tagu guid) jsem spáchal jednoduchou aplikaci: http://rss.na-mytince.cz/. Motivací pro zveřejnění byla kromě jiného také včerejší diskuse u Artura Denta.


[1] - čtečka teoreticky může za guid považovat adresu článku. Tato myšlenka však padá v okamžiku, kdy existuje web, kde je adresa všech článků stejná a mění se pouze perex.

       

Hodnocení: 100 %

        špatnédobré        

Anketa

Používáte element <guid>
 (42 %)
 (25 %)
 (3 %)
 (28 %)
 (1 %)
Celkem 67 hlasů

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (2) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

18.2.2007 08:26 lukipuki | skóre: 4 | blog: | Štokholm
Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
Odpovědět | Sbalit | Link | Blokovat | Admin
No ja používam Atom 1.0 a tak sa mi marí, že tam je element <id> povinný.
/dev/null: Permission denied
Luk avatar 18.2.2007 14:23 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
Odpovědět | Sbalit | Link | Blokovat | Admin
Nic ve zlém, ale to testovátko nějak blbne. Hlásí mi to tohle:
Posílá hlavičku Etag: 1d23a3437ffb470b CHYBA: Špatně implementovaná hlavička Etag, feed byl znovu stažen.
Posílá hlavičku Last-Modified: (2007, 2, 15, 10, 34, 31, 3, 46, 0) CHYBA: Špatně implementovaná hlavička Last-Modified:, feed byl znovu stažen.
A přitom obě hlavičky jsou implementovány přesně podle RFC 2616. Posílané hodnoty jsou navíc v pořádku (Last-Modified odpovídá poslední změně, ETag se počítá jako hash z unikátního identifikátoru stránky a času poslední změny).
Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly
Věroš avatar 18.2.2007 21:53 Věroš | skóre: 24 | blog: Co není v hlavě | 49.29 s.š., 16.54. v.d.
Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
Můžu prosím dostat adresu testovaného feedu?

Pro testování používám feedparser, stránka ho pouze pěkně zabalí.
Školím Ansible
Luk avatar 18.2.2007 23:52 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
Tady: http://www.cgym-kh.cz/rss2.php

BTW pro toho Cestovatele (toto) to také funguje divně, protože pro přítomný ETag to chybu nehlásí, kdežto pro Last-Modified to nenapíše nic, přestože ho server zjevně neposílá (ověřeno telnetem).

Něco mě napadlo - nemůže být třeba problém s case senzitivitou (u hlavičky ETag)? Totiž podle RFC 2616 je správně ETag (což posílám a testovač to nesežere), kdežto u Cestovatele je Etag (což, jak vidno, prochází).
Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly
Věroš avatar 19.2.2007 00:24 Věroš | skóre: 24 | blog: Co není v hlavě | 49.29 s.š., 16.54. v.d.
Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
Přečetl jsi ten odkazovaný článek HTTP Conditional Get for RSS Hackers?

Co se testuje:
  • Podpora Etag nebo Last-Modified (kvůli šetření pásmem). Pokud feed správně alespoň jednu z metod, tak je shledán uspokojivým, neb slušná čtečka podporuje obě dvě metody (popsané v tom anglickém čálánku).
  • guid - ten je popsaný v tomhle blogspotu. S tím navíc nemáme problém, takže ho dále ignorovat.

  • Proč tedy zmíněné feedy projdou či neprojdou:
  • http://www.cgym-kh.cz/rss2.php neprojde, protože inzeruje podporu HTTP hlavičky Etag (aktuálně 1d23a3437ffb470b), ale pokud pošlu dotaz s HTTP hlavičkou If-None-Match: 1d23a3437ffb470b, dostanu znovu vygenerovaný feed (a HTTP status: 200 OK), což je špatně. Správně bych měl dostat HTTP status 304 Not modified a klient i server by ušetřili za přenos.
  • dtto Last-Modified, pouze v requestu je posílám hlavičku If-Modified-Since: Thu, 15 Feb 2007 11:34:31 CET.
  • Cestovatel podporuje pouze Etag, ale podporuje ho správně (tedy pokud se feed nezměnil, pošle 304. Last-Modified podporovaný není, ale testovadlo to nepovažuje za chybu.

  • Stačí tak?
    Školím Ansible
    Luk avatar 19.2.2007 00:45 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
    Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
    Díky.
    Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly
    22.2.2007 22:29 Acci
    Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
    Odpovědět | Sbalit | Link | Blokovat | Admin
    Dá se to ale řešit i bez elementu guid, stačí jen například porovnávat jak nadpis, tak perex a třeba ještě odkaz. Je ale pravda, že s použitím guid je svět o něco lepší ;)
    Věroš avatar 23.2.2007 08:32 Věroš | skóre: 24 | blog: Co není v hlavě | 49.29 s.š., 16.54. v.d.
    Rozbalit Rozbalit vše Re: <guid> v RSS - malej, ale šikovnej
    Ne, nedá.

    Zkus popsat tvůj algoritmus porovnávání nové / změněné a já ti vymyslím příklad generování feedu, na kterém zklame. :-)
    Školím Ansible

    Založit nové vláknoNahoru

    ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.