繁体 English 中英

是否有关于多字节字符串转换为unicode wstring的快速实现？

[英]Is there even fast implementaion about multibyte character string convert to unicode wstring?

原文 2010-01-27 09:56:08 5 4 c/ windows/ multibyte

在我的项目中，我采用Aho-Corasick算法在服务器端做一些消息过滤模式，服务器得到的消息是多字节字符串。 但经过几次测试后，我发现瓶颈是mulitbyte字符串和unicode wstring之间的转换。 我现在使用的是一对mbstowcs_s和wcstombs_s，它占整个模式的近95％的时间成本。 另外，我尝试过MultiByteToWideChar / WideCharToMultiByte，它得到了相同的结果。 所以我想知道是否还有其他更有效的方法来完成这项工作？ 我的项目是在VS2005中构建的，转换后的字符串将包含中文字符。 非常感谢。

4 个解决方案

有很多种可能性。

首先，“多字节字符”是什么意思？ 你的意思是UTF8还是ISO DBCS系统？

如果你看一下UTF8和UTF16的定义，可以进行高度优化的转换，去掉“x”位并重新格式化它们。 例如，参见http://www.faqs.org/rfcs/rfc2044.html，讨论UTF8 <==> UTF32。 调整UTF16很简单。

第二种选择可能是完全使用UTF16。 以UTF16渲染网页（或UI对话框或其他内容）并以此方式获取用户输入。

如果所有其他方法都失败了，那么除了Aho-Corasick之外还有其他字符串算法。 可能会寻找适合您原始编码的算法。

[已添加29-Jan-2010]有关转换的更多信息，请参阅http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt ，包括mbtowc（）和wctomb的两个C实现（）。 这些设计用于处理任意大的wchar_ts。 如果你只有16位wchar_ts，那么你可以简化它。

这些将比标准库中的通用（代码页敏感）版本快得多。

不推荐使用（我相信），但您可以随时使用非安全版本（mbstowcs和wcstombs）。 不确定这是否会有明显的改善。 或者，如果你的字符集是有限的（例如a - z，0 - 9），你总是可以用查找表手动完成它。

也许你可以减少对MultiByteToWideChar的调用量？

您也可以采用Aho-Corasick直接处理多字节字符串。

将ASCII字符数组转换为UNICODE字符串

[英]convert ASCII character array to UNICODE string

如何获取C中char *下存储的多字节字符的unicode值？

[英]How to get unicode value of multibyte character stored under char * in C?

将n字节的多字节字符转换为unicode的有效方法

[英]Efficient way to convert n bytes of multibyte characters to unicode

将ucs（通用字符集）字符转换为unicode？

[英]convert ucs(Universal Character Set) character to unicode?

如何在glibc中的fxprintf.c中将多字节字符串转换为宽字符字符串？

[英]How multibyte string is converted to wide-character string in fxprintf.c in glibc?

终止（可能）多字节字符串？

[英]Terminate (possibly) multibyte string?

如何在C ++中将Unicode字符数组转换回Unicode序列

[英]How to convert a unicode character array back to unicode sequence in C++

多字节字符串和普通字符串

[英]Multibyte strings and ordinary string

关于字符串、空字符和strcmp

[英]About string, null character and strcmp

将字符串转换为它所代表的字符

[英]Convert a string to the character that it represents

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 将ASCII字符数组转换为UNICODE字符串如何获取C中char *下存储的多字节字符的unicode值？将n字节的多字节字符转换为unicode的有效方法将ucs（通用字符集）字符转换为unicode？如何在glibc中的fxprintf.c中将多字节字符串转换为宽字符字符串？终止（可能）多字节字符串？如何在C ++中将Unicode字符数组转换回Unicode序列多字节字符串和普通字符串关于字符串、空字符和strcmp 将字符串转换为它所代表的字符

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM