簡體 English 中英

在某處有UTF-8的語言字符區域列表嗎？

[英]Is there a list of language only character regions for UTF-8 somewhere?

原文 2010-05-17 03:15:36 7 3 utf-8/ character-encoding/ nlp

我試圖以識別不同語言字符的方式分析一些UTF-8編碼的文檔。 對於我的工作方法，我需要忽略非語言字符，例如控制字符，數學符號等。只是試圖剖析UTF標准的基本拉丁部分導致了多個區域，像分區符號這樣的字符正好在一系列有效拉丁字符的中間部分。

是否有某個列表可以識別這些區域？ 或者更好的是，一個正則表達式定義了C＃中可以識別不同字符的區域或東西？

3 個解決方案

查看Unicode 字符類別。 您可以使用字符類語法\\p{catname}在C＃正則表達式中匹配這些。 因此，要匹配小寫字母，您將使用\\p{Ll} 。 你可以結合這些。 [\\p{Ll}\\p{Lu}]匹配Ll或Lu類中的字符。

您可以使用\\p{XXX}來匹配unicode類別。 例如， \\p{Cc}匹配所有控制字符。

我猜你可以使用\\w匹配（L *）中的所有字母。 它在unicode模式下等於[\\p{Ll}\\p{Lu}\\p{Lt}\\p{Lo}\\p{Nd}\\p{Pc}] 。

請參閱http://www.fileformat.info/info/unicode/category/index.htm類別列表。

您可能對C標識符中合法的通用alpha感興趣。

生成 UTF-8 字符列表

[英]Generate UTF-8 character list

utf-8如何識別不同的語言字符

[英]how utf-8 identifies the different language character

韃靼語和 UTF-8

[英]Tartar language and UTF-8

UTF-8字符串在某處錯誤編碼

[英]UTF-8 string wrongly encoded somewhere

CSS中的UTF-8字符

[英]UTF-8 Character in CSS

UTF-8字符集

[英]UTF-8 character set

不支持UTF-8字符

[英]UTF-8 character not supporting

UTF-8 字數

[英]UTF-8 Character Count

只有一個特殊字符 (à) 在 UTF-8 中沒有正確顯示

[英]Only one special character (à) not showing properly in UTF-8

每個字符僅轉換8位UTF-8字符串

[英]Convert UTF-8 String with only 8 Bits per Character

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 生成 UTF-8 字符列表 utf-8如何識別不同的語言字符韃靼語和 UTF-8 UTF-8字符串在某處錯誤編碼 CSS中的UTF-8字符 UTF-8字符集不支持UTF-8字符 UTF-8 字數只有一個特殊字符 (à) 在 UTF-8 中沒有正確顯示每個字符僅轉換8位UTF-8字符串

相關標簽

在某處有UTF-8的語言字符區域列表嗎？

問題描述

3 個解決方案

解決方案1
5 已采納 2010-05-17 03:21:28

解決方案2
1 2010-05-17 03:25:06

解決方案3
1 2010-05-17 13:09:51

在某處有UTF-8的語言字符區域列表嗎？

問題描述

3 個解決方案

解決方案1 5 已采納 2010-05-17 03:21:28

解決方案2 1 2010-05-17 03:25:06

解決方案3 1 2010-05-17 13:09:51

解決方案1
5 已采納 2010-05-17 03:21:28

解決方案2
1 2010-05-17 03:25:06

解決方案3
1 2010-05-17 13:09:51