繁体 English 中英

如何查找无法成为Unicode字符串中单词一部分的字符？

[英]How to find characters that cannot be part of a word in a Unicode string?

原文 2011-06-23 14:27:59 8 3 c++/ unicode

我的字符串中有一些文本，我需要检查特定的字符串是否包含任何不允许发音的字符。

假设我有类似“（hello}”的文字

在这里它包含符号'（'和'}'，如何在C ++中实现，而字符串可以包含任何Unicode字符。

3 个解决方案

如果该字符串确实包含Unicode（UTF-8），则该问题肯定很简单； 您可能需要使用一些外部库，例如ICU。 或者，您可以转换为wchar_t （ wstring ），并使用以下单字节编码解决方案：

如果字符是单字节编码的， std::find_if具有合适谓词的std::find_if应该可以解决问题。 如果您要进行任何文本解析，则需要一劳永逸地将其定义为此类谓词的集合。 谓词可以使用locale的std::ctype方面中的函数，也可以使用wctype.h的函数（使用全局语言环境）。

不过，如果您要处理Unicode，即使转换为宽字符也可能不够，因为完整Unicode仍可以使用多个代码点来表示单个字符。 真正的问题是您想要这样做有多认真。 （也请注意，在许多语言中，例如英语或法语，“单词”可以包含Unicode认为标点的字符，例如“不要”或“ aujourd'hui” — Unicode表将告诉您'\\''为标点，而不是单词的一部分。）

std::isalpha （和相关的is*朋友）在字符类型上进行了模板化，并接受语言环境以实现更好的本地化能力。 我只是遍历string或wstring并使用is*函数来表示您感兴趣的行为（我不能说出您要允许和禁止从问题陈述中选择哪些字符）。

使用std::wstring和std::iswalpha() 。

如何在C ++中的字符串中找到完整的单词（不是它的一部分）

[英]How do I find a complete word (not part of it) in a string in C++

如何在一串字符中找到一个单词，其中字符可能由空格分隔

[英]How can I find a word in a string of characters where the characters may be separated by whitespaces

如何反转字符串中的单词中的字符（C ++）

[英]How to reverse the characters in a word in a string (c++)

如何在字符串中查找一组字符

[英]How to find a set of characters in a string

从字符串中删除 unicode 字符

[英]Remove unicode characters from a string

如何在jsoncpp中使用decodeString来解码包含unicode字符的字符串

[英]How to use decodeString in jsoncpp to decode a string containing unicode characters

如何从C++中的十六进制字符串输出Unicode字符？

[英]How to output Unicode characters from hex string in C++?

将unicode字符/字符串写入文件

[英]writing unicode characters/string to file

如何从unicode字符串中获取单个字符并进行比较、打印？

[英]How to get single characters from unicode string and compare, print them?

如何通过套接字将带有Unicode字符的Java字符串发送到C ++，而没有奇怪的字符？

[英]How can I send a Java string with Unicode characters to C++ via socket, without strange characters?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在C ++中的字符串中找到完整的单词（不是它的一部分）如何在一串字符中找到一个单词，其中字符可能由空格分隔如何反转字符串中的单词中的字符（C ++）如何在字符串中查找一组字符从字符串中删除 unicode 字符如何在jsoncpp中使用decodeString来解码包含unicode字符的字符串如何从C++中的十六进制字符串输出Unicode字符？将unicode字符/字符串写入文件如何从unicode字符串中获取单个字符并进行比较、打印？如何通过套接字将带有Unicode字符的Java字符串发送到C ++，而没有奇怪的字符？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM