需要說明使用C ++在Linux上創建utf-8編碼的文件

Question

我需要在Linux上使用g ++進行文件編碼的一些說明。

我有一個簡單的代碼：

int main ()
{
  FILE * pFile;
  char buffer[] = { 'x' , 'y' , 'z' ,'é' };
  pFile = fopen ("myfile", "wt, ccs=UTF-8");
  //pFile = fopen ("myfile", "wt");
  fwrite (buffer , sizeof(char), sizeof(buffer), pFile);
  fclose (pFile);
  return 0;
}

即使在fopen行上添加了“ ccs = UTF-8”部分，該程序的輸出文件也始終以iso-8859-1編碼。 但是，如果我在Linux上使用vi創建包含這些字符的文件，則生成的文件是UTF-8編碼的（我使用命令“ file myfile”查看文件的編碼模式，並使用“ xxd -b myfile”確認這種行為）。

所以我想理解：

1-為什么Linux上的g ++默認情況下不會創建UTF-8文件？

2-如果創建的文件未使用UTF-8編碼，則ccs = UTF-8的目的是什么？

3-如何基於此簡單代碼創建UTF-8文件？

謝謝。

Answer 1

您的文件可能看上去符合ISO-8859-1，但實際上不是。 簡直是壞了。

您的文件包含字節A9 ，它是é的UTF-8表示形式的低字節。

當您編寫'é' ，編譯器應該警告您：

 aaa.c:4:38: warning: multi-character character constant [-Wmultichar]
     char buffer[] = { 'x' , 'y' , 'z' ,'é' };
                                         ^

char不是char的類型，而是一個字節的類型。 GCC將多字節字符文字視為大端整數。 在這里，您將其立即轉換為char ，保留最低字節： A9

（順便說一句，ISO-8859-1中的é是E9 ，而不是A9 ）

如果要寫字符而不是字節，請使用wchar_t代替char和fputws代替fwrite

#include <stdio.h>
#include <wchar.h>

int main ()
{
  FILE * pFile;
  // note final zero and L indicating wchar_t literal
  wchar_t buffer[] = { 'x' , 'y' , 'z' , L'é' , 0};
  // note no space before ccs
  pFile = fopen ("myfile", "wt,ccs=UTF-8");
  fputws(buffer, pFile);
  fclose (pFile);
  return 0;
}

需要說明使用C ++在Linux上創建utf-8編碼的文件

問題描述

1 個解決方案

解決方案1
1 已采納 2014-12-05 14:35:20

需要說明使用C ++在Linux上創建utf-8編碼的文件

問題描述

1 個解決方案

解決方案1 1 已采納 2014-12-05 14:35:20

解決方案1
1 已采納 2014-12-05 14:35:20