如何在Linux上的C中获取文件中的字符数（而不是字节数）

Question

我想获取文件中的字符数。 字符我的意思是“真正的”字符，而不是字节。 假设我知道文件编码。

我尝试使用mbstowcs()但它不起作用，因为它使用系统区域设置（或使用setlocale定义的系统区域设置）。 因为setlocale不是线程安全的，所以在调用mbstowcs()之前我不认为使用它是个好主意。 即使它是安全的，我也必须确保我的程序不会在setlocale()的调用之间“跳转”（信号等setlocale() （一次调用将其设置为文件的编码，然后打开打电话恢复到前一个）。

因此，举一个例子，假设我们有一个使用俄语编码（例如KOI8）编码的文件ru.txt 。 所以，我想打开文件并获取字符数，假设文件的编码是KOI8。

如果source_encoding mbstowcs()可以采用source_encoding参数，那可能很容易......

编辑：使用mbstowcs()的另一个问题是必须在系统上安装与文件编码对应的语言环境...

Answer 1

我建议使用iconv（3）：

NAME
   iconv - perform character set conversion

SYNOPSIS
   #include <iconv.h>

   size_t iconv(iconv_t cd,
                char **inbuf, size_t *inbytesleft,
                char **outbuf, size_t *outbytesleft);

并转换为utf32。 对于每个转换的字符，您将得到4字节输出（对于BOM，加2）。 应该可以使用固定大小outbuf逐个转换输入，如果一个人仔细选择outbytesleft（即4 * inbytesleft + 2 :-)。

Answer 2

要计算文件中UTF8字符的数量，只需将其内容传递给此函数：

int CalcUTF8Chars( const std::string& S )
{
    int Count = 0;

    for ( size_t i = 0; i != S.length(); i++ )
    {
        if ( ( S[i] & 0xC0 ) != 0x80 ) { Count++; }
    }

    return Count;
}

没有外部依赖。

更新：

如果您想处理其他不同的编码，您有两种选择：

使用可以处理它的第三方库，例如，ICU http://site.icu-project.org/
为您要使用的每个编码自己编写计算函数。

如何在Linux上的C中获取文件中的字符数（而不是字节数）

问题描述

2 个解决方案

解决方案1
5 已采纳 2013-08-12 12:14:55

解决方案2
0 2013-08-12 12:26:42

如何在Linux上的C中获取文件中的字符数（而不是字节数）

问题描述

2 个解决方案

解决方案1 5 已采纳 2013-08-12 12:14:55

解决方案2 0 2013-08-12 12:26:42

解决方案1
5 已采纳 2013-08-12 12:14:55

解决方案2
0 2013-08-12 12:26:42