Správné zobrazení diakritiky českých manuálových stránek

AbcLinuxu hledá autory!

Inzerujte na AbcPráce.cz od 950 Kč

Rozšířené hledání

napište » Zprávičky

inzerujte » Pracovní nabídky

Firmy v EU musí označovat obsah vytvořený umělou inteligencí

dnes 13:11 | IT novinky

Firmy v EU musí počínaje dnešním dnem označovat obsah vytvořený umělou inteligencí. Znamená to povinnost informovat uživatele, že člověk komunikuje s chatbotem či jiným systémem AI. Rovněž obrázky, audia či videa, které jsou vytvořené nebo zmanipulované pomocí umělé inteligence a které mohou působit jako autentické, musejí být jasně označeny jako uměle vytvořené.

Ladislav Hagara | Komentářů: 1

NetBSD 11.0

dnes 04:11 | Nová verze

Byla vydána nová major verze 11.0 open source unixového operačního systému NetBSD (Wikipedie). Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

NÚKIB podpořil mezinárodní doporučení pro lepší přehled o složení softwaru

včera 19:55 | IT novinky

Národní úřad pro kybernetickou a informační bezpečnost (NÚKIB) se zapojil do mezinárodní iniciativy vedené americkou agenturou CISA (Cybersecurity and Infrastructure Security Agency) a dalšími partnery, jejímž cílem je stanovit minimální náležitosti pro tzv. Software Bill of Materials (SBOM). Nový dokument přináší praktická doporučení, jak by měl vypadat přehled komponent softwaru a jak s ním v praxi pracovat. SBOM lze

… více »

Ladislav Hagara | Komentářů: 1

Servo 0.4.0

včera 03:00 | Nová verze

V aktuálním přehledu vývoje renderovacího jádra webového prohlížeče Servo (Wikipedie) bylo oznámeno vydání nové verze 0.4.0. Výrazně se zlepšilo vykreslování stránek jako lichess.org, Zulip nebo Speedtest.

Ladislav Hagara | Komentářů: 0

Kritické zranitelnosti v produktech VMware: CVE-2026-59309, CVE-2026-59310 a CVE-2026-47876

31.7. 19:22 | Bezpečnostní upozornění

Vládní CERT upozorňuje (𝕏) na kritické zranitelnosti v produktech VMware: CVE-2026-59309, CVE-2026-59310 a CVE-2026-47876. Zranitelnosti v VMware vCenter umožňují vzdálenému útočníkovi se síťovým přístupem obejít autentizaci a získat neoprávněný přístup k vCenter, případně zneužít directory traversal ke spuštění libovolného kódu na vCenter.

Ladislav Hagara | Komentářů: 1

Bezpečnostní chyba hardwarových kryptopeněženek Coldcard

31.7. 18:33 | Bezpečnostní upozornění

Společnost Coinkite upozorňuje na bezpečnostní chybu svých hardwarových kryptopeněženek Coldcard. Jedná se o kritickou chybu v generování náhodných čísel (RNG). Místo hardwarového generátoru náhodných čísel (TRNG) byl omylem používán softwarový fallback (PRNG).

Ladislav Hagara | Komentářů: 4

Shadowfetch Linux, nová distribuce s důrazem na lokální umělou inteligenci

31.7. 14:11 | Zajímavý projekt

Představena byla nová linuxová distribuce Shadowfetch Linux. Na rozdíl od mnoha nováčků, které nabízejí převážně jiné téma a výběr softwaru, tato distribuce založená na Debianu Testing s desktopovým prostředím KDE Plasma 6.6, klade lokálně běžící umělou inteligenci do centra svého desktopového zážitku.

Pinhead | Komentářů: 0

Max Leiter: Wayland, X11, GNOME a KDE nativně na iPadu

30.7. 17:22 | Zajímavý projekt

Max Leiter v roce 2019 zkusil zprovoznit X server na iPadu (iOS). Nyní se k tématu vrátil a s pomocí LLM a balíčkovacích nástrojů Procursus rozběhl desktop s X11 i Waylandem. Jeho balíčky jsou dostupné v repozitáři xiOS.

|🇵🇸 | Komentářů: 27

Google Cloud získal certifikaci pro český veřejný sektor

30.7. 13:33 | IT novinky

Společnost Google Cloud dnes oznámila, že její infrastruktura a služby byly oficiálně zařazeny do Katalogu cloud computingu vedeného Digitální a informační agenturou (DIA). Tato certifikace potvrzuje, že infrastruktura a služby Google Cloud splňují přísné bezpečnostní a regulační požadavky České republiky pro provoz cloudových služeb ve veřejném sektoru.

Ladislav Hagara | Komentářů: 6

Zátěžový test eDokladů / 13. srpna ve 13:00

30.7. 13:11 | IT novinky

Vůbec poprvé v historii se stát při testování digitálních služeb obrací na širokou veřejnost. Digitální a informační agentura (DIA) a Ministerstvo vnitra zvou občany k zapojení do zátěžového testu eDokladů, které od loňského podzimu prošly optimalizací aplikace a posílením infrastruktury. Test proběhne 13. srpna ve 13:00 a pro jeho úspěch bude potřeba zapojení několika desítek tisíc občanů. Zapojení do testu je zcela dobrovolné a úkol

… více »

Ladislav Hagara | Komentářů: 44

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Blogy / Úlomky / Linux / Správné zobrazení diakritiky českých manuálových stránek

Štítky: MPlayer

Správné zobrazení diakritiky českých manuálových stránek

11.6.2007 15:38 | Přečteno: 1277× | Linux | Výběrový blog

Už dlouhou dobu jsem poměrně rozčarován ze způsobu zacházení s českými manuálovými stránkami v Debianu. Používá se mix znakových sad UTF-8 a ISO-8859-2. Snad je problém ve formátu nroff, ve kterém se IMHO nedá určit v jaké znakové sadě je dokument napsán a s Debianem nesouvisí; ovšem nejednotnost kódování jen přilévá benzín do ohně. To, že české manuály bývají zastaralé a málo kdo je čte, tento nedostatek neomlouvá. Běžně sice z praktických důvodů používám anglické verze, ale požitek z češtiny bych si při občasné relaxaci spočívající v pročítání manuálů nerad odpouštěl.

Většina stránek je v ISO-8859-2, avšak některé v UTF-8 (např. mplayer, dvdisaster). A ta změť znaků skutečně nevypadá vábně. Protože jsem na webu nenašel rozumný návod, jak problém řešit, trochu jsem zalaboroval a výsledek dávám k posouzení a zároveň si ho zálohuji :)

Když zadám shellu příkaz man cokoliv, projde zdrojový text manuálové stránky řadou preprocesorů spojených rourou, na jejímž konci je předán obsah nějakému pageru (např. less). Před pagerem je zařazen procesor groff, který formátuje text do výsledné podoby a mimo jiné provádí konverzi na kódování určené locale. V mé instalaci Debianu tedy z ISO-8859-2 na UTF-8, které používám. Problém nastane, když stránka již v UTF-8 je. Potom si zcela zbytečně dává práci převést ji na UTF-8 a samozřejmě ji naprosto zmrší. Napadlo mě do řetězu vklínit vlastní preprocesor, který by převedl UTF-8 stránku na kódování ISO-8859-2, ve kterém je většina manuálů v Debianu. Takže by se převáděla z UTF-8 na latin2 a dále zpět z latin2 na UTF-8 ;) Nebyl jsem ale schopen zjistit, jak vklínit do řetězu další preprocesor, a tak jsem se rozhodl udělat wrapper na již existující a doufám vždy použitý: tbl.

K detekci znakové sady jsem použil program enca a k vytvoření dočasného souboru binárku tempfile z debianího balíčku debian-utils - je to ovšem nepostradatelná utilitka snad dostupná v každé distribuci.

sudo apt-get install enca debian-utils

Konfigurační soubor programu man je v Debianu /etc/manpath.config. Stačí v něm předefinovat preprocesor tbl na vytvořený wrapper:

DEFINE tbl /usr/local/bin/tbl-utf8-latin2.sh

například tento:

#!/bin/sh
#BUGS: does not parse LANGUAGE environment variable
#TODO: other languages support (i.e. Slovak)

do_convert=0
if test -n "$LC_ALL" ; then
    echo "$LC_ALL" | grep -q cs_CZ && do_convert=1
elif test -n "$LC_MESSAGES"; then
    echo "$LC_MESSAGES" | grep -q cs_CZ && do_convert=1
elif echo "$LANG" | grep -q cs_CZ; then
    do_convert=1
fi
    
test -x /usr/bin/enca || do_convert=0
test -x /bin/tempfile || do_convert=0

if [ $do_convert -eq 1 ]; then
    tmp=`/bin/tempfile`
    cat $1 > $tmp;
    if /usr/bin/enca $tmp | grep -q "Universal transformation format 8 bits; UTF-8"; then
        cat $tmp | /usr/bin/enca -x ISO-8859-2 | /usr/bin/tbl
    else 
        cat $tmp | /usr/bin/tbl
    fi
    rm $tmp
else
    cat $1 | /usr/bin/tbl
fi

Skript detekuje nastavení locales a pokud je cs_CZ a manuál je v UTF-8, převede ho na ISO-8859-2 a pošle dál. Jinak ho předá beze změn.

Pokud jsem jako osel vymýšlel již vymyšlené, a existující řešení nekoliduje s balíčkovacím systémem, budu rád, pokud mě na něj upozorníte. Koneckonců nevěřím, že by neexistovalo elegantnější řešení - vždyť je to natolik závažný problém dotýkající se mnoha česky hovořících uživatelů.

Hodnocení: 100 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (2) ? , Tisk

Vložit další komentář

11.6.2007 16:35 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Správné zobrazení diakritiky českých manuálových stránek

Odpovědět | Sbalit | Link | Blokovat | Admin

A přidat do .bashrc:


export PAGER="enca -c|most"

je nedostatečné řešení?

This would have been so hard to fix when you don't know that there is in fact an easy fix.

11.6.2007 21:48 Petr Gajdůšek | skóre: 13 | blog: Úlomky | Znojmo
Rozbalit Rozbalit vše Re: Správné zobrazení diakritiky českých manuálových stránek

Nejdřív jsem se zastyděl, že je to tak jednoduché :) Jenže potom mi došlo, že to můj problém neřeší.

Některé stránky jsou psány v UTF-8 a man předpokládá jen latin2, takže chybně zkonvertuje znakovou sadu a s tím už potom jde hůře něco dělat. To byl problém, který jsem se snažil řešit.

Ten řetězec manu vypadá asi takhle:

 /usr/bin/zsoelim /tmp/zmanKqA3pR | /usr/bin/tbl | /usr/bin/groff -M/usr/local/share/groff/tmac -mandoc -rLL=118n -rLT=118n -Tascii8 | iconv -c -f ISO-8859-2 -t UTF-8 | $PAGER

Kdyby místo iconv -c -f ISO-8859-2 -t UTF-8 použil enca, nebo by se dalo vypnout konvertování úplně, nebyl by asi problém. Ale nevím jak.

Místo navrhovaného enca -c | most by se musel použít wrapper ve smyslu: pokud je po převodu z UTF-8 na latin2 text v UTF-8, zobraz pagerem tento, jinak text původní.

Snad by to skutečně bylo jednoduší.

Mimochodem roura v proměnných se na mém systému ignoruje.

11.6.2007 20:16 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Správné zobrazení diakritiky českých manuálových stránek

Odpovědět | Sbalit | Link | Blokovat | Admin

Dobré řešení problému léčením příznaků :|

Na toto téma se už diskutovalo a s odkazovaným příspěvkem souhlasím.

Problém je, že (g)roff je program pro sazbu textu a tak se jeho autor brání jakýmkoliv zlepšovákům, které omezují již dosaženou univerzálnost (jako je groff-utf8).

Nedávno jsem převáděl manuál jednoho programu do DocBooku. Anglickou a českou verzi po 5 stránkách s výstupem do roffu a XHTML a musím uznat, že současný groff saje. Tím, že jsem zdroj přepsal do DB, se mohu oprostit od -Tps a mám našlápnuto na groff-utf8 :)

12.6.2007 01:19 hajma | skóre: 27 | blog: hajma | Říčany
Rozbalit Rozbalit vše Re: Správné zobrazení diakritiky českých manuálových stránek

Odpovědět | Sbalit | Link | Blokovat | Admin

nahlaš do debianu bug, to bude asi efektivnější btw v Mandrivě Cookeru jsou už české man stránky v utf8 a zobrazují se ok

21 promarněných znaků

Založit nové vlákno • Nahoru