Linux prý neumí česky

30.7.2006 00:02 | Přečteno: 1753× | Ze života | Výběrový blog

| poslední úprava: 30.7.2006 00:40

Toto si myslí "specialista na vyhledávání v češtině" - vyhledávač Morfeo. Zkuste si vyhledat něco ryze českého, tedy nějaké slovo s diakritikou. Budete se divit.

Potřeboval jsem něco vyhledat a jak Google, tak ani Seznam nepodávaly uspokojivé výkony. Proto jsem zkusil použít další vyhledávač, a tím bylo Morfeo - právě ten vyhledávač, který používá portál Centrum. Požadovaný text jsem napsal a odeslal na server. Žádné stránky nebyly nalezeny. To bylo velice podezřelé. Ovšem vzápětí jsem si všiml něčeho co mě pořádně zarazilo.

Celá stránka s výsledky byla nikoli v češtině, nýbrž v "cestine", a z vyhledávaného slova byly nevhodné znaky prachsprostě odstraněny. Říkám si: problém s kódováním. A zkouším jiné nastavení kódování. Výsledky stále stejné. Už mi bylo téměř jasné, že problém bude s hlavičkou User-Agent (Konqueror mu třeba nevoní), proto jsem nastavil MSIE 6 pod XP a odeslal dotaz. A všechno proběhlo tak, jak má.

Aha, tak Konqueror to nezná a proto předpokládá, že umí jen ASCII. Tak schválně, co to udělá, když se mu nastaví MSIE 6, ovšem už ne pod XP. A je to tady: opět bez češtiny. Takže ne Konqueror, nýbrž Linux mu nevoní. Situace se je ale mnohem zajímavější. Ovšem pozor - některé prohlížeče (např. Opera 9, Mozilla 1.7.x nebo Netscape 7.1) jsou brány na milost, kdežto jiné nikoli (Firefox 1.0, Opera 7.53, Mozilla 1.2 apod.), a to přesto, že pro jejich windowsovské kolegy funguje vše správně.

Největší legrace ale teprve přijde. Zkuste schválně v Konqueroru nastavit identifikaci jako libovolný prohlížeč pod Mac OS X nebo Mac PPC. Můžete se pak pokochat čajem místo písmen. Morfeo totiž pošle stránku v macovském kódování (které Konqueror zřejmě nezvládá), aniž by ho o to někdo žádal - v HTTP hlavičce Konqueror označuje jako preferované kódování UTF-8.

Je zajímavé, jakou práci si dali vývojáři Morfea, aby rozebírali hlavičku User-Agent a na jejím základě vymýšleli, jak naložit s obsahem. Současně totiž ignorují další HTTP hlavičky, přinejmenším Accept-Charset. Navíc znakové sada v hlavičce Content-Type v odpovědi většinou chybí (!), kromě onoho macovského kódování (i když v případech, kdy s češtinou naloží správně, znakovou sadu uvádí). Příslušný META tag v HTML pak chybí ve všech případech.

Působí velice komicky, když si tak diletantsky implementovaný vyhledávač říká "specialista na vyhledávání v češtině", a přitom s tou češtinou nakládá tak macešsky. A absolutně nerozumím tomu, proč to není uděláno standardním způsobem (podle Accept-Charset), což by bylo podstatně jednodušší. Portál Centrum samozřejmě toto beze zbytku přebírá, proto se stejného chování dočkáme i tam (možná je rozdíl jen v obrázcích na stránkách).

Komentáře

Zkusil jsem něco vyhledat a úplně to ty písmenka s diakritikou vynechalo, tzn. pokusil se vyhledat "rk" :-D

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

30.7.2006 00:33 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Linux prý neumí česky

No vždyť to píšu: "z vyhledávaného slova byly nevhodné znaky prachsprostě odstraněny" :-D

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

30.7.2006 00:36 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Napoprvé bych spíš soudil, že odstranil nevhodná slova :-D

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

30.7.2006 02:57 #Tom | skóre: 32 | blog: Inspirace, aneb co jsem kde vyhrabal
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Mně to teda funguje. :-D

http://morfeo.centrum.cz/index.php?q=%E8%F9r%E1k&submit.x=0&submit.y=0&mt=2&tt=2&mts=1&sec=mor

30.7.2006 03:12 Pietro | skóre: 7
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Mne toto konkretne vo Firefoxe 1.5.0.5 ano, v Opere 9 nie, v Konquerore 3.5.3 nie.

30.7.2006 09:18 Rezza | skóre: 25 | blog: rezza | Brno
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Jede...

Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.1 (like Gecko)

Krasne slovo ;)

30.7.2006 11:53 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Jo, ale to "rk" zbylo z trochu jinýho slova :-(

Zkus hádat :-D

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

30.7.2006 11:53 David Watzke | skóre: 74 | blog: Blog... | Praha
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Aha, já na to zas čuměl Konquerorem :-D

Tys to uhod :-D

“Being honest may not get you a lot of friends but it’ll always get you the right ones” ―John Lennon

Ano jsou to amatérské prasárny (stejně se chová i slavné aktualne.cz, které spadá pod centrum.cz), ale to odpovídá bulvárnímu zaměření těchto médií. O informace a jejich dostupnost jde až někde v (před?)poslední řadě, proto jsou menšiny (a k tomu ještě většinou těch inteligentnějších návštěvníků) nežádoucí.

Ti, kdo bojují o uznání Linuxu takovými stránkami (firmami) anebo o inteligentně a nerušivě umístěnou reklamu, si asi neuvědomují, že o myslící a inteligentní "konzumenty" není zájem. Aktualne.cz je např. nějak podivně zařízeno tak, že sežere většinu výkonu CPU ... (v Linuxu).

Jelikož se jedná o soukromé firmy, navrhoval bych se tím vůbec nezabývat. Jejich škoda (kterou momentálně snadno skousnou). Zaměřme se tam, kde je to provozováno za naše daně, např. do oblasti státní správy, do veřejnoprávních médií (ČTV, ČRo - btw tam propagují teď cíleně OGG Vorbis) atd. V poslední době jsem si např. oblíbil psané zprávy na ct24.cz, které mě často překvapují svou věcností a úplností (shrnou jmenovitě všechno důležité i z ostatních médií a vynechají ideologickou příchuť a propagandu).

PS. Tím nechci říct, že je zbytečné o tom vědět nebo že je zbytečný tvůj blog, naopak - jen mi snaha o řešení přijde zatím jako nedůstojná "nás elitářů" (říkejte si co chcete, lidi s Linuxem na desktopu jsou specifická kasta ;) :D Něco jako snažit se ovlivňovat z intelektuálních pozic program TV Nova :D

30.7.2006 02:43 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Tady vůbec nejde o boj o uznání Linuxu, ani o snahu řešit nefunkčnost (v tomto případě mě absolutně netrápí). Jen mě překvapilo, že někdo (firma takového významu; i když i z pohledu českého trhu je to stejně spíš trpaslík) něco dělá složitě a blbě, když to jde jednoduše a dobře. A také, že působí komicky, když "specialista na češtinu" s češtinou pracuje na takové úrovni.

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

30.7.2006 19:50 xkesh | skóre: 46 | blog: eXtempore
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Jen mě překvapilo, že někdo (firma takového významu; i když i z pohledu českého trhu je to stejně spíš trpaslík) něco dělá složitě a blbě, když to jde jednoduše a dobře.

Mě ne :D

Vsechny servery ktere spadaji pod NetCentrum pouzivaji modul mod_czech v Apachi ktery se o toto prekodovavani do ruznych kodovani stara. Vice informaci ohledne mod_czech lze urcite vygooglit.

Chovani toho do jakeho kodovani se stranka prekoduje jde trosku ovlivnit. Napriklad pokud chci stranku ciste v ASCII, staci nacist stranku http://morfeo.cz/asc a stranka bude jen v ascii kodovani. Pokud chci stranku v kodovani UTF8, staci nacist http://morfeo.cz/utf.

Takto lze servery pouzivajici modul mod_czech prohlizene pres "nepodporovany" browser donutit zasilat text s diaktritikou.

30.7.2006 09:43 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Tak to by musela být extrémně stará verze. Protože je to už pěkných pár let, co jsem mod_czech používal a už tehdy se přednostně orientoval podle Accept-Charset. Navíc se zmršenou konfigurací, protože defaultní konfigurace odjakživa linuxovým prohlížečům posílala ISO 8859-2.

Co za programátora, že vypustil Content-Type? To si skutečně myslí pár lidí z Centra, že vědí, co je pro zrovna můj browser nejlepší? Tohle bych pochopil jedině, kdyby stránka byla v cp1250 a on si myslel, že všichni mají IE :-D

Nebudu sprostý…

Only Sith deals in absolutes.

30.7.2006 13:30 Luk | skóre: 47 | blog: Kacířské myšlenky | Kutná Hora
Rozbalit Rozbalit vše Re: Linux prý neumí česky

Kdyby stránka byla tupě v cp1250 a korektně se to tam uvedlo, tak si s tím i Linuxové browsery poradí.

Šifrování je absolutní nutnost a pomáhá chránit před nekalými živly

V tomhle je Centrum velice pravděpodobně nevinně a může za to spíš mod_czech, který používá hlavičku User-Agent jako součást heuristiky k uhádnutí kódování. Hádejte, jak je kódování u parametrů předávaných v URL ve standardu definováno ;-)

Znakovou sadu v Content-type Morfeo předává zcela korektně, váš případ byl velmi pravděpodobně takový, že mod_czech rozhodl, že prohlížeč umí pouze iso-8859-1 a u toho samozřejmě znakovou sadu v Content-type uvádět netřeba (je to default), naopak se kvůli kompatibilitě s prohlížeči používajícími staré verze HTTP úmyslně vynechává.

Co se znakové sady v META týče, myslím si, že že je to spíš na škodu.

Zkrátka bych autorovi doporučil, aby se naučil místo nadávání raději psát bug reporty, případně aspoň přesně popsat svůj problém.

Linux prý neumí česky

Hodnocení: 93 %

Komentáře