ncurses a utf-8

Ahoj, mam problem s delkou retezcu v UTF-8. Nevite nahodou nekdo, jak vytisknout spravne retzce tak, aby byli zarovnany podle pozadovane delky? Viz priklad, prvni volani mvprintw funguje spravne, druhe spatne. Soubor je ulozen v kodovani UTF-8. Uz jsem z toho zoufaly :(

#include stdio.h
#include wchar.h
#include locale.h
#include curses.h
#include stdlib.h
#include string.h

int uc; 

int main(void)
{
    wint_t ch; 
  if ((setlocale(LC_ALL, "") == NULL))
  {
    fprintf (stderr, "Nelze inicializovat locales.");
    exit(1);
  }
  initscr (); 
  noecho (); 
  keypad (stdscr, TRUE);    

    clear (); 
    mvprintw (4, 1, " %10i %10s %10s",55,"01234567","0123456");
    mvprintw (5, 1, " %10i %10s %10s\n",55,"Žluťásek","šeřeček");

    refresh (); 

    (void) get_wch(&ch);
    echo();
    endwin(); 
    return 0;
}

Tak problém je v tom, že utf-8 je vícebajtové kódování, které zabírá 1-6 bytů, pro češtinu to však vychazí na 1-2 byty. Ve tvém příkladě je v obou řetězcích po třech českých znacích, tzn je potřeba připočítat 3 znaky do šířky.

Nástin řešení je dole, dám 10 (tvoje šířka, co se má vytisknout) a přičtu k tomu rozdíl délky v bytech a počtu skutečných znaků. Asi by to chtělo vytknout do funkce a taky najít fci na převod mezi normálním řetězcem a řetězcem dlouhých znaků, abys každý řetězec nemusel mít dvakrát.

...
#define A "Žluťásek"
#define B "šeřeček"
#define LA L"Žluťásek"
#define LB L"šeřeček"
...
    mvprintw (5, 1, " %10i %*ls %*ls",55, 10 + strlen(A) - wcswidth(LA, 20), LA, 10 + strlen(B) - wcswidth(LB, 20), LB);
...

Alternativně počkat na někoho, kdo tomu opravdu rozumí. ;-)

10.8.2010 21:57 sallyx | skóre: 2
Rozbalit Rozbalit vše Re: ncurses a utf-8

Tohle je přesně věc, které jsem se chtěl vyhnout :) Navic pro omezeni delky retezce na max. pocet znaku to fungovat nebude (umim si predstavit jak to upravit aby to fungovalo, ale ...).

Doufal jsem, že to jde nějak jednoduššeji. Například pomocí funkce wprintf z knihovny wchar.h mohu napsat tohle:

include stdio.h
#include wchar.h
#include locale.h
#include stdlib.h

int main(void)
{
  if ((setlocale(LC_ALL, "") == NULL))
  {
    fprintf (stderr, "Nelze inicializovat locales.");
    exit(1);
  }

 if(fwide(stdout, 0) == 0) {
        if(fwide(stdout, 1) <= 0) {
            fprintf(stdout, "could not switch to wide char mode!\n");
            exit(1);
        }   
        else {
            wprintf(L"switched to wide char mode!\n");
        }   
 }
    wprintf(L" %10i %10s %.4s\n",55,"01234567","0123456");
    wprintf(L" %10i %10s %.4s\n",55,"Žluťásek","čeřešek");
    return 0;
}

To funguje OK, ale existuje neco takoveho i pro ncurses?

10.8.2010 22:27 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: ncurses a utf-8

Zklamu vás, ale ani wprintf() není dokonalé. Vy totiž nechcete určit počet unicodových znaků, ale počet znaků/bajtů, kolik se vejde do určitého počtu sloupců. A to závisí na konkrétních znacích (například všelijaké zvláštní znaky typu word-joiner, soft-hyphen nezabírají žádný sloupec) a na schopnostech terminálu (například japonské symboly se vypisují přes dva sloupce).

A zklamu vás ještě víc, standardní céčková knihovna žádnou pěknou funkci na to nemá. Ale nabízí drobky, ze kterých se dá požadovaná funkcionalita poskládat.

Řešil jsem to ve svém programu Šigofumi. Začíná to funkcí utf8width().

Nicméně bych se podivoval, kdyby to ncursesw už neřešila.

10.8.2010 23:31 sallyx
Rozbalit Rozbalit vše Re: ncurses a utf-8

Nojo, máte pravdu, bohužel /: Také bych rád věřil, že ncursesw tohle nějak řeší, ale nevím jak, nikde jsem nic nevygooglil, tak se tu na to ptám. Pokud zanedbám japonské znaky, tak pro české národní prostředí my zatím nejhezčejc s ncurses vychází toto:

wchar_t tmp[512];
swprintf(tmp,sizeof(tmp)/sizeof(wchar_t),L" %20i '%20s' %.4s\n",55,"Žluťásek","šeřeček");
mvprintw (6, 1, "%ls",tmp);
swprintf(tmp,sizeof(tmp)/sizeof(wchar_t),L" %20i '%20s' %.4s\n",55,"以以以以","以以以以");
mvprintw (6, 1, "%ls",tmp);

Česká verze bude fungovat bez problémů, ale ta japonská ne .. Takže pokud nepřijde někdo s něčím lepším, mám jen 2 možnosti

prohlásit program za ryze 'čengliš' a o jiné kódování se nestarat
jít tou vaší cestou a sesmolit si podobné funkce

Každopoádně díky za pomoc :)

11.8.2010 15:10 anonym
Rozbalit Rozbalit vše Re: ncurses a utf-8

A nebo taky použít mvprintw(y, x, ... pro každé "pole" míto řádku a neřešit takové věci.

Dotaz: ncurses a utf-8

Odpovědi