[英]How to match Unicode character using .net?
我想使用正則表達式匹配Unicode字符。 我發現這可以使用Unicode類別或塊或更准確地使用這些Unicode類別和支持的命名塊 。
問題是我無法使用LINQPAD 4
和Regex.IsMatch
函數使其工作。 例如,嘗試匹配一個簡單的拉丁字符,如下所示:
Console.WriteLine(Regex.IsMatch("d", @"[\0000-\007F]+"));
引發以下錯誤:
ArgumentException4以相反的順序解析“[\\ 0000- \\ 007F] +” - [xy]范圍。
並使用這個:
Console.WriteLine(Regex.IsMatch("d", @"\L{IsBasicLatin}{1}"));
給我:
解析“\\ L {IsBasicLatin} {1}” - 無法識別的轉義序列\\ L.
在我的現實情況下,我要代替IsLatin
與IsCyrillic
,但我需要使它與拉美合作,以確保它是OK
。
誰能說出我做錯了什么?
您正在使用字符的八進制表示而不是十六進制 ,這會創建一個無效范圍(因為首先, \\000
被解析為八進制字符,然后遇到0-\\007
並導致錯誤,因為0
具有32
十進制代碼) 。
使用
\\x
或\\u\u003c/code>表示法,例如:
[\x00-\x7F]+
這將捕獲整個ASCII范圍以及控制字符(包括NULL符號)。
第二個問題,你需要使用
\\p
腳本名稱,例如
\p{IsBasicLatin}
在此處查看有關Unicode類別的更多信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.