[英]Is there a list of language only character regions for UTF-8 somewhere?
我試圖以識別不同語言字符的方式分析一些UTF-8編碼的文檔。 對於我的工作方法,我需要忽略非語言字符,例如控制字符,數學符號等。只是試圖剖析UTF標准的基本拉丁部分導致了多個區域,像分區符號這樣的字符正好在一系列有效拉丁字符的中間部分。
是否有某個列表可以識別這些區域? 或者更好的是,一個正則表達式定義了C#中可以識別不同字符的區域或東西?
查看Unicode 字符類別 。 您可以使用字符類語法\\p{catname}
在C#正則表達式中匹配這些。 因此,要匹配小寫字母,您將使用\\p{Ll}
。 你可以結合這些。 [\\p{Ll}\\p{Lu}]
匹配Ll或Lu類中的字符。
您可以使用\\p{XXX}
來匹配unicode類別。 例如, \\p{Cc}
匹配所有控制字符。
我猜你可以使用\\w
匹配(L *)中的所有字母。 它在unicode模式下等於[\\p{Ll}\\p{Lu}\\p{Lt}\\p{Lo}\\p{Nd}\\p{Pc}]
。
請參閱http://www.fileformat.info/info/unicode/category/index.htm類別列表。
您可能對C標識符中合法的通用alpha感興趣。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.