Portál AbcLinuxu, 5. května 2025 03:06
Už dlouhou dobu jsem poměrně rozčarován ze způsobu zacházení s českými manuálovými stránkami v Debianu. Používá se mix znakových sad UTF-8 a ISO-8859-2. Snad je problém ve formátu nroff, ve kterém se IMHO nedá určit v jaké znakové sadě je dokument napsán a s Debianem nesouvisí; ovšem nejednotnost kódování jen přilévá benzín do ohně. To, že české manuály bývají zastaralé a málo kdo je čte, tento nedostatek neomlouvá. Běžně sice z praktických důvodů používám anglické verze, ale požitek z češtiny bych si při občasné relaxaci spočívající v pročítání manuálů nerad odpouštěl.
Většina stránek je v ISO-8859-2, avšak některé v UTF-8 (např. mplayer, dvdisaster). A ta změť znaků skutečně nevypadá vábně. Protože jsem na webu nenašel rozumný návod, jak problém řešit, trochu jsem zalaboroval a výsledek dávám k posouzení a zároveň si ho zálohuji :)
Když zadám shellu příkaz man cokoliv
, projde zdrojový text manuálové stránky řadou preprocesorů spojených rourou, na jejímž konci je předán obsah nějakému pageru (např. less
). Před pagerem je zařazen procesor groff
, který formátuje text do výsledné podoby a mimo jiné provádí konverzi na kódování určené locale. V mé instalaci Debianu tedy z ISO-8859-2 na UTF-8, které používám. Problém nastane, když stránka již v UTF-8 je. Potom si zcela zbytečně dává práci převést ji na UTF-8 a samozřejmě ji naprosto zmrší. Napadlo mě do řetězu vklínit vlastní preprocesor, který by převedl UTF-8 stránku na kódování ISO-8859-2, ve kterém je většina manuálů v Debianu. Takže by se převáděla z UTF-8 na latin2 a dále zpět z latin2 na UTF-8 ;) Nebyl jsem ale schopen zjistit, jak vklínit do řetězu další preprocesor, a tak jsem se rozhodl udělat wrapper na již existující a doufám vždy použitý: tbl
.
K detekci znakové sady jsem použil program enca
a k vytvoření dočasného souboru binárku tempfile
z debianího balíčku debian-utils
- je to ovšem nepostradatelná utilitka snad dostupná v každé distribuci.
sudo apt-get install enca debian-utils
Konfigurační soubor programu man je v Debianu /etc/manpath.config
. Stačí v něm předefinovat preprocesor tbl
na vytvořený wrapper:
DEFINE tbl /usr/local/bin/tbl-utf8-latin2.sh
například tento:
#!/bin/sh
#BUGS: does not parse LANGUAGE environment variable
#TODO: other languages support (i.e. Slovak)
do_convert=0
if test -n "$LC_ALL" ; then
echo "$LC_ALL" | grep -q cs_CZ && do_convert=1
elif test -n "$LC_MESSAGES"; then
echo "$LC_MESSAGES" | grep -q cs_CZ && do_convert=1
elif echo "$LANG" | grep -q cs_CZ; then
do_convert=1
fi
test -x /usr/bin/enca || do_convert=0
test -x /bin/tempfile || do_convert=0
if [ $do_convert -eq 1 ]; then
tmp=`/bin/tempfile`
cat $1 > $tmp;
if /usr/bin/enca $tmp | grep -q "Universal transformation format 8 bits; UTF-8"; then
cat $tmp | /usr/bin/enca -x ISO-8859-2 | /usr/bin/tbl
else
cat $tmp | /usr/bin/tbl
fi
rm $tmp
else
cat $1 | /usr/bin/tbl
fi
Skript detekuje nastavení locales a pokud je cs_CZ a manuál je v UTF-8, převede ho na ISO-8859-2 a pošle dál. Jinak ho předá beze změn.
Pokud jsem jako osel vymýšlel již vymyšlené, a existující řešení nekoliduje s balíčkovacím systémem, budu rád, pokud mě na něj upozorníte. Koneckonců nevěřím, že by neexistovalo elegantnější řešení - vždyť je to natolik závažný problém dotýkající se mnoha česky hovořících uživatelů.
Tiskni
Sdílej:
export PAGER="enca -c|most"
je nedostatečné řešení?
/usr/bin/zsoelim /tmp/zmanKqA3pR | /usr/bin/tbl | /usr/bin/groff -M/usr/local/share/groff/tmac -mandoc -rLL=118n -rLT=118n -Tascii8 | iconv -c -f ISO-8859-2 -t UTF-8 | $PAGER
Kdyby místo iconv -c -f ISO-8859-2 -t UTF-8 použil enca, nebo by se dalo vypnout konvertování úplně, nebyl by asi problém.
Ale nevím jak.
Místo navrhovaného enca -c | most
by se musel použít wrapper ve smyslu: pokud je po převodu z UTF-8 na latin2 text v UTF-8, zobraz pagerem tento, jinak text původní.
Snad by to skutečně bylo jednoduší.
Mimochodem roura v proměnných se na mém systému ignoruje.
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.