abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 15:55 | Komunita

    O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.

    Ladislav Hagara | Komentářů: 0
    dnes 15:44 | Komunita

    Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

    … více »
    Ladislav Hagara | Komentářů: 6
    dnes 15:22 | IT novinky

    Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

    Ladislav Hagara | Komentářů: 5
    včera 17:11 | IT novinky

    Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

    Ladislav Hagara | Komentářů: 23
    včera 15:11 | IT novinky

    Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

    Ladislav Hagara | Komentářů: 2
    včera 14:11 | IT novinky

    V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.

    Ladislav Hagara | Komentářů: 0
    včera 00:33 | Nová verze

    Firma Proxmox vydala novou serverovou distribuci Datacenter Manager ve verzi 1.0 (poznámky k vydání). Podobně jako Virtual Environment, Mail Gateway či Backup Server je založená na Debianu, k němuž přidává integraci ZFS, webové administrační rozhraní a další. Datacenter Manager je určený ke správě instalací právě ostatních distribucí Proxmox.

    |🇵🇸 | Komentářů: 8
    4.12. 23:44 | Nová verze

    Byla vydána nová verze 2.4.66 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 5 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    4.12. 14:00 | IT novinky

    Programovací jazyk JavaScript (Wikipedie) dnes slaví 30 let od svého oficiálního představení 4. prosince 1995.

    Ladislav Hagara | Komentářů: 0
    4.12. 04:22 | Bezpečnostní upozornění

    Byly zveřejněny informace o kritické zranitelnosti CVE-2025-55182 s CVSS 10.0 v React Server Components. Zranitelnost je opravena v Reactu 19.0.1, 19.1.2 a 19.2.1.

    Ladislav Hagara | Komentářů: 3
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (47%)
     (19%)
     (18%)
     (22%)
     (15%)
     (24%)
     (16%)
     (18%)
    Celkem 434 hlasů
     Komentářů: 18, poslední 2.12. 18:34
    Rozcestník

    Html soubor a kódování

    26.8.2010 17:10 | Přečteno: 1300× | software | poslední úprava: 13.3.2011 10:10

    Dříve jsem si stáhnul z internetu nějaké články, byly v podobě html. (Názvy souborů a složek, které tady uvedu, nejsou přesné, protože si je už nepamatuji, ale to není tak důležité.) Byla to složka, název složky clanky a vevnitř bylo několik souborů html a složka s názvem soubory. Ve složce soubory byly různé doplňky k těm html souborům, které se načtou, když v prohlížeči otevřu některý z těch html souborů, byly tam například obrázky a podobně. Dále v těch html stránkách byly odkazy na ostatní z těch html souborů, takže když v prohlížeči otevřu některou z těch stránek, můžu se pomoci těch odkazů přepínat na ostatní z těch stránek.

    Tyto uložené stránky mi však nefungovaly tak dobře hned, musel jsem je nejdříve opravit. První nedostatek, kterého jsem si všiml, je, že se mi některé písmena zobrazovaly nečitelně. Zjistil jsem, že je to kódováním. Prohlížeč mám nastavený na UTF-8 a ty stránky byly napsané v jiném, ISO-8859-2. Tak jsem prohlížeč nastavil na kódování ISO-8859-2 a už se mi to zobrazovalo čitelně, jenomže se zase zkazila jiná věc. Přestaly se zobrazovat veškeré obrázky a taky přestaly fungovat všechny odkazy, které umožňuji klikáním se dostat z jedné uložené stránky na druhou. Při kliknutím na takový odkaz se mi objevil výpis podobný tomuto: Chyba při načítání souboru /home/david/Nov??slo?ka/clanky/strana2 soubor /home/david/Nov??slo?ka/clanky/strana2 neexistuje.

    Složku clanky mám uloženou v adresáři ~/Nová složka. Když jsem tu složku přesunul do adresáře, kde nemám v cestě žádné háčky, čárky, a podobně, problémy zmizely. Když jsem tu složku clanky přemístil zpět a tu složku Nová složka přejmenoval na Novaslozka, problémy taky zmizely. Ještě jsem ale pořád nebyl spokojený. Nelíbilo se mi, že na funkci html souborů má vliv to, kam je umístím a jak jsou pojmenované případné adresáře výše. A tento vliv byl i přesto, že ty odkazy na další html soubory a na obrázky a tak dále, nebyly psané absolutní cestou, byly psané relativní cestou nebo bez cesty. Proto by správně mělo být jedno, jestli existuje nějaký adresář nad tím vším a jak se jmenuje.

    Nakonec jsem to vyřešit takto: Všechny ty html soubory, jeden po druhém, jsem otevřel v KWrite, nastavil kódování ISO-8859-2 a znovu soubor uložil (ulož jako), při čemž jsem zvolil kódování UTF-8. Tak jsem ty soubory převedl na kódované v UTF-8. Když jsem potom otevřel některou z těch uložených stránek, už fungovaly všechny odkazy i obrázky a to i bez ohledu na to, kam jsem tu složku clanky se vším uložil a nevadilo ani to, jestli byly nějaké adresáře výše a jestli ty adresáře měly v názvu háčky, čárky, a pod.

    Ale zbýval ještě jeden nedostatek: Když jsem otevřel v prohlížeči některou z těch stránek, musel jsem prohlížeč ručně nastavit na kódování UTF-8, protože jinak se přepínal na ISO-8859-2 a tím pádem se mi text zobrazoval nečitelně a ještě k tomu nefungovaly obrázky, ani odkazy; dokud jsem to ručně nepřepnul na správné kódování. Chybu jsem opravil takto: V textovém editoru jsem otevřel html soubory, a jeden po druhém opravil tak, aby řádek meta vypadal takto: <meta content="text/html; charset=UTF-8"> . Protože předtím tam místo UTF-8 bylo napsané něco jiného a kvůli tomu to bylo.

    Co z celého tohoto článku vyplývá? Když si budu chtít z internetu uložit stránku nebo sám si vyrobit uloženou stránku, čím se mám řídit, abych neměl problémy se správným zobrazováním textu v prohlížeči, s fungováním odkazů na další uložené stránky, doplňkovými soubory k stránce a podobně? Používat v html souborech zásadně kódování UTF-8, protože je lepší? Nebo se řídit tím, jaké kódování mám nastavené v operačním systému pro pojmenování všech souborů a adresářů a takové kódování potom používat taky? Nebo čím? A kde se vlastně nastavuje, jaké mám nastavené kódování pro pojmenovávání všech adresářů a souborů, například v prostředí KDE? Taky bych chtěl předejít problémům s přenesením html dokumentů na jiný počítač. Všechny html dokumenty si vypaluji a když si je nakopíruji do jiného počítače nebo kdybych náhodou přešel na jiný operační systém, tak abych zase neměl problém se správným zobrazením textu v prohlížeči, s fungováním odkazů, s fungováním doplňkových souborů k html dokumentům a podobně.

    Pro jednoduchost jsem udělal postup, který lépe předvede můj problém, a můžete si to vyzkoušet i vy.

    POSTUP:

    Vyrobil jsem si složku clanky. Potom jsem vyrobil dva html dokumenty, které jsem do te složky umístil. Při výrobě obou dokumentů jsem měl textový editor nastavený na kódování UTF-8.

    První dokument se jmenuje clanek1 a zdrojový kód je:

    
    <html>
      <head>
        <title></title>
        <meta content="text/html; charset=UTF-8">
        <style></style>
      </head>
      <body>
    Toto je první článek. Chcete-li si přečíst druhý článek,
    <a href="clanek2">klikněte zde.</a>
      </body>
    </html>
    
    

    Druhý dokument se jmenuje clanek2 a zdrojový kód je:

    
    <html>
      <head>
        <title></title>
        <meta content="text/html; charset=UTF-8">
        <style></style>
      </head>
      <body>
    Toto je druhý článek. Chcete-li si přečíst první článek,
    <a href="clanek1">klikněte zde.</a>
      </body>
    </html>
    
    

    Ať už jsem tu složku umístil kamkoliv, vždycky dokumenty v prohlížeči fungovaly, a to i včetně klikání na odkazy.

    Potom jsem oba dokumenty v KWrite překódoval na ISO-8859-2 a v obou dokumentech jsem podle toho taky přepsal kódování v tagu meta za charsetem, aby to odpovídalo.

    A výsledek? Oba html dokumenty se v prohlížeči zobrazují stále správně, a to ať už celou složku clanky umístím kamkoliv. Jenom to klikání na odkazy už přestane fungovat, pokud tu složku clanky umístím tak, že kterýkoliv z nadřazených adresářů má v názvu háčky, čárky nad písmeny a podobně. Když jsem například umístil složku clanky do adresáře, který se jmenuje Nová složka, tak klikání na odkazy v dokumentu nefunguje, ale vypisuje hlášení podobné tomuto: Chyba při načítání /home/david/Nov??slo?ka/clanky/clanek2. Soubor /home/david/Nov??slo?ka/clanky/clanek2 neexistuje.

           

    Hodnocení: 43 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    rADOn avatar 26.8.2010 17:58 rADOn | skóre: 44 | blog: bloK | Praha
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    …čím se mám řídit, abych neměl problémy se správným zobrazováním textu v prohlížeči, s fungováním odkazů na další uložené stránky, doplňkovými soubory k stránce a podobně?…
    Pokud je autor stranky hovado a do url strka nezakodovane non-ascii paznaky - a z tveho popisu to tak vypada - tak je nejlepsi reseni najit ho a nakopat do zadku :-)

    "2^24 comments ought to be enough for anyone" -- CmdrTaco
    26.8.2010 18:06 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    Ty znaky do názvu adresáře strká prohlížeč. To, že počítače psaly cesky, protoze to jinak neumely, se možná dalo tolerovat v devadesátých letech, ne dnes.
    rADOn avatar 26.8.2010 19:51 rADOn | skóre: 44 | blog: bloK | Praha
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    Znaky v nazvu adresare s tim nemaji co delat, to je zalezitost systemovyho locale a DWD nepsal nic o tom ze by s nim sachoval. Znaky v URL jsou vec jina, a ty musi byt v 7bit ASCII protoze RFC to netoleruje ani dnes. A to z dobreho duvodu. Cili pokud to nekdo nezakoduje nebo zakoduje blbe (v jine sade nez zbytek dokumentu) tak to bude blbe. At to tolerujes nebo ne :-)
    "2^24 comments ought to be enough for anyone" -- CmdrTaco
    26.8.2010 19:55 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    Při ukládání webové stránky i s příslušenstvím je změna všech URL to jediné, co musí prohlížeč opravdu udělat, aby to vůbec mohlo fungovat. Asi by bylo zbytečné, aby prohlížeč ukládal na disk soubor obrazek.png, a v HTML nechal odkaz na http://www.example.com/obrazek.png. O šachování s locale autor psal, takže bych problém hledal právě tam.
    26.8.2010 18:03 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    Žádná univerzální pravidla neexistují. Uložení stránky i s příslušenstvím je věcí prohlížeče a záleží jenom na tom, jak jeho programátoři tule funkci pojali, jaké konverze udělají atd. Názvy souborů jsou v Linuxu jen pole bajtů, takže interpretace jako text je až na programu (nebo knihovních funkcích, které používá). V praxi tedy záleží na použitém locale – s jakým program spustíte, tak bude interpretovat bajty v názvech souborů. Technicky správné by bylo, aby typ souboru a jeho kódování bylo uloženo jako metadata souboru (podobně jako název, čas atd.), v Linuxu tedy v rozšířených atributech souboru. Dokonce už je na to nějaký standard z dílny x.org – ale nepoužívá se. Se jmény souborů je to podobné, kódování by mělo být uloženo někde v metadatech souborového systému (nebo by měl souborový systém nějaké kódování určit napevno, třeba UTF8 nebo UCS–2), a systém by měl při získávání jména souborů provádět přemapování a poskytovat název jako text – kdy se něčeho takového v Linuxu dočkáme je ovšem ve hvězdách.
    27.8.2010 15:12 reqw5q23
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    Ja bych svoje zkusenosti shrnul takhle:

    * Psani cesky na html strankach neni problem. Clovek musi dodrzet jen zakladni zasadu a ulozit to ve stejnem kodovani jake je napsane v meta tagu charset. UTF-8 je pravdepodobne dobra volba.

    * V obecnych dokumentech (psany v editoru, treba kile,..) vetsinou neni kodovani zaznamenane, takze plati predchozi bod s tim, ze si musis pamatovat v jakem je to kodovani.

    * Pouzivani ceskych znaku mimo obsah dokumentu je v kazdem pripade velke riziko a zasadne ho nedoporucuju. Dal je treba se vyhybat i dalsim nebezpecnym znakum jako mezera,lomitko,otazniky,uvozovky,procenta, zavorky, atd.. ktere snadno zmatou programy nebo uzivatele. Cili je vhodne se omezit jen na pismenka anglicke abecedy, cislice a znaky _-. (podtrziko, pomlcka, tecka). Pritom se musi pocitat s tim, ze nekdy se rozlisuji a jindy naopak nerozlisuji velikosti pismen.

    27.8.2010 16:16 DWD | skóre: 18 | blog: papiry
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    * Pouzivani ceskych znaku mimo obsah dokumentu je v kazdem pripade velke riziko a zasadne ho nedoporucuju. Dal je treba se vyhybat i dalsim nebezpecnym znakum jako mezera,lomitko,otazniky,uvozovky,procenta, zavorky, atd.. ktere snadno zmatou programy nebo uzivatele. Cili je vhodne se omezit jen na pismenka anglicke abecedy, cislice a znaky _-. (podtrziko, pomlcka, tecka). Pritom se musi pocitat s tim, ze nekdy se rozlisuji a jindy naopak nerozlisuji velikosti pismen.

    To se jedná o názvy všech adresářů, do kterých ty html dokumenty uložím, včetně všech nadřazených adresářů (pokud jsou), nebo kde?

    V těch stažených html dokumentech, o kterých jsem mluvil, jsem nenašel žádné vadné url nebo blbě udělané url. Jsou tam odkazy například

    <A href="dates.html">článek data</A>
    ,
    <img src="soubory/obraz01.png">
    . V žádném odkazu v uvozovkách po href= a v uvozovkách po src= nebyly žádné háčky, čárky, mezery a podobně, dokonce ani nebyly potřeba. Všechny tyto URL byly psané bez absolutní cesty (což je u html dokumentů často lepší) a byly psané v rámci te složky "clanky". Takže všechny URL odkazovaly (a to i ve zdrojovém kódu dokumentu v href="" a v src="") vždycky na něco, co bylo v složce "clanky" obsažené. Ať už jde o obrázek nebo o další html dokument. Přesto všechno se ty dokumenty divně chovaly, dokud jsem to neopravil, jak jsem psal. Tyto odkazy však potřeba přepisovat nebyly, ty jsem nechal tak, jak jsou; opravit jsem musel jiné věci, co jsem už říkal, a potom už všechno fungovalo. Takže problém nemohl být v tom, jak byly psané ty URL, ale musel být ten problém v něčem jimém a moc si to neumím vysvětlit.

    Po stažení a rozbalení zipu jsem získal jenom složku "clanky", ve které bylo všechno obsaženo: Všechny ty html dokumenty a složka "soubory" s obrázky k těm html dokumentům. Složka "Nová složka", do které jsem tu složku "clanky" umístil, už není součást toho stažení, ale dělaná.

    Jsem kretén, který ví lautr hovno o Linuxu a o počítačích vůbec.
    28.8.2010 00:06 rastos | skóre: 63 | blog: rastos
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    "Správne" riešenie je použiť na to nejaký nástroj. Napr. konqueror má (že?) "Archive Web Page". Rátam, že pre FF bude na to nejaký addon a v krajnom prípade by to mohol robiť "wget --page-requisites". Ale prakticky to funguje čím ďalej tým menej. Kvôli javascriptu, flash-u, stavu session ukladanému do cookies, dynamicky generovaným stránkam, atď, atď. URL už dlho nie je "Universal Resource Locator" - teda niečo, čo umožňuje určiť, kde sa nejaká informácia na webe nachádza :-(
    29.8.2010 15:39 lelool | skóre: 12
    Rozbalit Rozbalit vše Re: Html soubor a kódování
    A čo tak podobné súbory, teda celý adresár stianúť pomocou wget?

    parameter -k, zaistí aby po dokončení sťahovania boli prevedené odkazy v dokumente tak, aby boli vhodné pre miestne prezeranie.

    viac man wget

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.