如何使用.net匹配Unicode字符？

Question

我想使用正則表達式匹配Unicode字符。 我發現這可以使用Unicode類別或塊或更准確地使用這些Unicode類別和支持的命名塊。

問題是我無法使用LINQPAD 4和Regex.IsMatch函數使其工作。 例如，嘗試匹配一個簡單的拉丁字符，如下所示：

Console.WriteLine(Regex.IsMatch("d", @"[\0000-\007F]+"));

引發以下錯誤：

ArgumentException4以相反的順序解析“[\\ 0000- \\ 007F] +” - [xy]范圍。

並使用這個：

Console.WriteLine(Regex.IsMatch("d", @"\L{IsBasicLatin}{1}"));

給我：

解析“\\ L {IsBasicLatin} {1}” - 無法識別的轉義序列\\ L.

在我的現實情況下，我要代替IsLatin與IsCyrillic ，但我需要使它與拉美合作，以確保它是OK 。

誰能說出我做錯了什么？

Answer 1

您正在使用字符的八進制表示而不是十六進制 ，這會創建一個無效范圍（因為首先， \\000被解析為八進制字符，然后遇到0-\\007並導致錯誤，因為0具有32十進制代碼）。

使用\\x或\\u\u003c/code>表示法，例如：

[\x00-\x7F]+

這將捕獲整個ASCII范圍以及控制字符（包括NULL符號）。

第二個問題，你需要使用\\p腳本名稱，例如

\p{IsBasicLatin}

在此處查看有關Unicode類別的更多信息。