Jazyk C - vytvoření souboru ve správném kódování (vyřešeno)

Funkce fopen vytvoří soubor, tedy posloupnost bytů. Kódování bude takové, jaké do něj uložíš. Možná je budeš muset před uložením konvertovat.

9.12.2011 13:20 Matěj Vaňátko | skóre: 19 | Brno
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Jo, dobrý, děkuju ;-)

A má jazyk C nějakou knihovní funkci na překódování souboru ?

9.12.2011 13:52 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

libiconv, ale glibc iconv... tá prvá mi príde jednoduchšia, ale príliš som sa v tom nevŕtal

9.12.2011 13:55 l4m4
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Funkce rodiny iconv (iconv_open, iconv, inconv_close) jsou na POSIXových systémech standardně. Na běžné věci postačují. Samozřejmě konvertují data v paměti.

Kromě toho existují další knihovny, jako třeba librecode.

9.12.2011 16:33 Matěj Vaňátko | skóre: 19 | Brno
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Díky, mrknu na to.

Jedná se teda o projekt do školy. A učí nás, abychom tvořili přenositelné programy. Existuje tedy něco, co bude fungovat jak na Windows tak Linuxu, tak *BSD ?

9.12.2011 17:26 Sten
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

iconv je na Linuxu i BSD. Windows používá vlastní funkce (WideCharToMultiByte ap.). Odlišit tyto systémy lze pomocí #ifdef __unix__, resp. #ifdef _WIN32.

9.12.2011 21:14 Matěj Vaňátko | skóre: 19 | Brno
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Díky Stene. Mrknu na to ;-)

9.12.2011 23:07 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

WideCharToMultiByte() bych podle názvu odhadoval spíš na obdobu wcstombs() a spol. než na analogii funkcí z iconv.

9.12.2011 23:21 l4m4
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Každopádně existuje knihovna win-iconv, která implementuje standardní iconv rozhraní nad těmi Win32 funkcemi. Reálné programy ji používají, takže to je snad dostatečně přenositelné i pro školní projekt...

10.12.2011 11:37 Sten
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

A co se mrknout do dokumentace (wcstombs, WideCharToMultiByte)? WideCharToMultiByte má navíc parametr, kde se specifikuje kódování.

10.12.2011 22:36 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Což je celkem nepodstatný detail, na tom, jestli je kódování určeno locale nebo jestli ho zadáváte explicitně jako parametr, až tak moc nezáleží. To podstatné je, že obě funkce slouží ke konverzi mezi multibyte a widechar řetězci, zatímco iconv překládá (multibyte) řetězce mezi různými kódováními.

11.12.2011 11:23 stefan
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Vhodnou kombinaciou MultiByteToWideChar a WideChatToMultiByte mozete dosiahnut zelanu konverziu. Je to trochu nepohodlne, lebo ked si nie ste isty, kolko pamati alokovat, musite kazdu funkciu zavolat dva krat. Takze budete potrebovat nejaky wrapper, alebo rovno nieco hotove.

11.12.2011 12:13 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Vhodnou kombinaciou MultiByteToWideChar a WideChatToMultiByte mozete dosiahnut zelanu konverziu

Jistě. A přesně totéž lze říct i o mbstowcs() a wcstombs(), protože ty funkce slouží ke stejnému účelu. Oproti tomu iconv sice s kódováními pracuje také, ale slouží k něčemu jinému; proto také vůbec neobsahuje podporu widechar řetězců.

fyi: existuje BOM, kterym se da naznacit kodovani

9.12.2011 18:21 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Přidávání BOM do UTF-8 textových souborů je projev ignorance a zlo, které je třeba vymýtit.

9.12.2011 23:23 l4m4
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

BOM! je zvuk který vydává moje pěst při setkání s obličejem člověka snažícího se nacpat byte order mark do textových souborů...

10.12.2011 09:22 rastos | skóre: 63 | blog: rastos
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Len drobná poznámka: čínsky zákazník od vás nekúpi software, ktorý vo svojich textových súboroch nemá BOM. Teda za predpokladu, že chce dodržať čínske zákony. Čo spravidla chce. A to nehovorím len o súboroch, ktoré sú výstupom toho software-u.

10.12.2011 10:28 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Len drobná poznámka: čínsky zákazník od vás nekúpi software, ktorý vo svojich textových súboroch nemá BOM.

Tak, jak jste to napsal, to není pravda zcela určitě.

10.12.2011 11:03 rastos | skóre: 63 | blog: rastos
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Asi som mal povedať, že hovorím o firemnom zákazníkovi. Skrátka mám priamu skúsenosť s tým, že firma musela investovať veľa človekohodín do toho, aby svoju suitu aplikácií upravila tak, aby každý textový súbor mal BOM. Na túto požiadavku firma narazila, keď chcela predávať SW v Číne a vraj vychádza z čínskej legislatívy. Tá možno nie je taká kategorická, ale je v tomto smere dostatočne komplikovaná a nejednoznačná, aby predávajúci bol donútený BOM implementovať.

Ale netrvám na tom, aby si mi veril. ;-)

10.12.2011 11:41 l4m4
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Budu-li ti věřit, nemůže se v Číně používat Linux a nejspíš ani žádný jiný Unix, a tudíž je pro tento portál Čína irelevantní ;)

Navíc bavíme se o BOM v UTF-8, nebo nějakých těch jejich vícebajtových kódováních?

10.12.2011 13:39 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

Asi som mal povedať, že hovorím o firemnom zákazníkovi.

Já také mluvím o firemních zákaznících. Firma, kde pracuji, jich má docela dost (i dost velkých) a má i pobočku v Číně. S požadavkem, že by "v každém textovém souboru byl BOM" jsem se nikdy nesetkal a přinejmenším výrazná většina jich tento požadavek nesplňuje. V mnoha případech (třeba u systémových konfiguračních souborů nebo shellových skriptů) by taková absurdita navíc vedla k nefunkčnosti.

10.12.2011 11:41 Sten
Rozbalit Rozbalit vše Re: Jazyk C - vytvoření souboru ve správném kódování

AFAIK to platí jenom pro UTF-16, kde Unicode Consortium BOM doporučuje. Čína ale preferuje UTF-16 nebo GB 18030, protože jsou potom texty kratší.

Dotaz: Jazyk C - vytvoření souboru ve správném kódování

Odpovědi