Portál AbcLinuxu, 20. prosince 2025 12:55
Už dlouhou dobu jsem poměrně rozčarován ze způsobu zacházení s českými manuálovými stránkami v Debianu. Používá se mix znakových sad UTF-8 a ISO-8859-2. Snad je problém ve formátu nroff, ve kterém se IMHO nedá určit v jaké znakové sadě je dokument napsán a s Debianem nesouvisí; ovšem nejednotnost kódování jen přilévá benzín do ohně. To, že české manuály bývají zastaralé a málo kdo je čte, tento nedostatek neomlouvá. Běžně sice z praktických důvodů používám anglické verze, ale požitek z češtiny bych si při občasné relaxaci spočívající v pročítání manuálů nerad odpouštěl.
Většina stránek je v ISO-8859-2, avšak některé v UTF-8 (např. mplayer, dvdisaster). A ta změť znaků skutečně nevypadá vábně. Protože jsem na webu nenašel rozumný návod, jak problém řešit, trochu jsem zalaboroval a výsledek dávám k posouzení a zároveň si ho zálohuji :)
Když zadám shellu příkaz man cokoliv, projde zdrojový text manuálové stránky řadou preprocesorů spojených rourou, na jejímž konci je předán obsah nějakému pageru (např. less). Před pagerem je zařazen procesor groff, který formátuje text do výsledné podoby a mimo jiné provádí konverzi na kódování určené locale. V mé instalaci Debianu tedy z ISO-8859-2 na UTF-8, které používám. Problém nastane, když stránka již v UTF-8 je. Potom si zcela zbytečně dává práci převést ji na UTF-8 a samozřejmě ji naprosto zmrší. Napadlo mě do řetězu vklínit vlastní preprocesor, který by převedl UTF-8 stránku na kódování ISO-8859-2, ve kterém je většina manuálů v Debianu. Takže by se převáděla z UTF-8 na latin2 a dále zpět z latin2 na UTF-8 ;) Nebyl jsem ale schopen zjistit, jak vklínit do řetězu další preprocesor, a tak jsem se rozhodl udělat wrapper na již existující a doufám vždy použitý: tbl.
K detekci znakové sady jsem použil program enca a k vytvoření dočasného souboru binárku tempfile z debianího balíčku debian-utils - je to ovšem nepostradatelná utilitka snad dostupná v každé distribuci.
sudo apt-get install enca debian-utils
Konfigurační soubor programu man je v Debianu /etc/manpath.config. Stačí v něm předefinovat preprocesor tbl na vytvořený wrapper:
DEFINE tbl /usr/local/bin/tbl-utf8-latin2.sh
například tento:
#!/bin/sh
#BUGS: does not parse LANGUAGE environment variable
#TODO: other languages support (i.e. Slovak)
do_convert=0
if test -n "$LC_ALL" ; then
echo "$LC_ALL" | grep -q cs_CZ && do_convert=1
elif test -n "$LC_MESSAGES"; then
echo "$LC_MESSAGES" | grep -q cs_CZ && do_convert=1
elif echo "$LANG" | grep -q cs_CZ; then
do_convert=1
fi
test -x /usr/bin/enca || do_convert=0
test -x /bin/tempfile || do_convert=0
if [ $do_convert -eq 1 ]; then
tmp=`/bin/tempfile`
cat $1 > $tmp;
if /usr/bin/enca $tmp | grep -q "Universal transformation format 8 bits; UTF-8"; then
cat $tmp | /usr/bin/enca -x ISO-8859-2 | /usr/bin/tbl
else
cat $tmp | /usr/bin/tbl
fi
rm $tmp
else
cat $1 | /usr/bin/tbl
fi
Skript detekuje nastavení locales a pokud je cs_CZ a manuál je v UTF-8, převede ho na ISO-8859-2 a pošle dál. Jinak ho předá beze změn.
Pokud jsem jako osel vymýšlel již vymyšlené, a existující řešení nekoliduje s balíčkovacím systémem, budu rád, pokud mě na něj upozorníte. Koneckonců nevěřím, že by neexistovalo elegantnější řešení - vždyť je to natolik závažný problém dotýkající se mnoha česky hovořících uživatelů.
Tiskni
Sdílej:
export PAGER="enca -c|most"
je nedostatečné řešení?
/usr/bin/zsoelim /tmp/zmanKqA3pR | /usr/bin/tbl | /usr/bin/groff -M/usr/local/share/groff/tmac -mandoc -rLL=118n -rLT=118n -Tascii8 | iconv -c -f ISO-8859-2 -t UTF-8 | $PAGER
Kdyby místo iconv -c -f ISO-8859-2 -t UTF-8 použil enca, nebo by se dalo vypnout konvertování úplně, nebyl by asi problém.
Ale nevím jak.
Místo navrhovaného enca -c | most by se musel použít wrapper ve smyslu: pokud je po převodu z UTF-8 na latin2 text v UTF-8, zobraz pagerem tento, jinak text původní.
Snad by to skutečně bylo jednoduší.
Mimochodem roura v proměnných se na mém systému ignoruje.
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.