簡體   English   中英

在某處有UTF-8的語言字符區域列表嗎?

[英]Is there a list of language only character regions for UTF-8 somewhere?

我試圖以識別不同語言字符的方式分析一些UTF-8編碼的文檔。 對於我的工作方法,我需要忽略非語言字符,例如控制字符,數學符號等。只是試圖剖析UTF標准的基本拉丁部分導致了多個區域,像分區符號這樣的字符正好在一系列有效拉丁字符的中間部分。

是否有某個列表可以識別這些區域? 或者更好的是,一個正則表達式定義了C#中可以識別不同字符的區域或東西?

查看Unicode 字符類別 您可以使用字符類語法\\p{catname}在C#正則表達式中匹配這些。 因此,要匹配小寫字母,您將使用\\p{Ll} 你可以結合這些。 [\\p{Ll}\\p{Lu}]匹配Ll或Lu類中的字符。

您可以使用\\p{XXX}來匹配unicode類別。 例如, \\p{Cc}匹配所有控制字符。

我猜你可以使用\\w匹配(L *)中的所有字母。 它在unicode模式下等於[\\p{Ll}\\p{Lu}\\p{Lt}\\p{Lo}\\p{Nd}\\p{Pc}]

請參閱http://www.fileformat.info/info/unicode/category/index.htm類別列表。

您可能對C標識符中合法的通用alpha感興趣。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM