将未转义的unicode字符串转换为unicode

Question

我有一个来自mysql数据库的文本字符串

var str = "u0393u03a5u039du0391u0399u039au0391".

我想替换unicode字符以将其显示为实际出现的“ΓΥΝΑΙΚΑ”。 如果我在.net中用\\ u手动转义了u，则转换将自动完成。

我发现以下功能：

byte[] unicodeBytes = Encoding.Unicode.GetBytes(str);

// Perform the conversion from one encoding to the other.
byte[] ascibytes = Encoding.Convert(Encoding.Unicode, Encoding.ASCII, unicodeBytes);

// Convert the new byte[] into a char[] and then into a string.
char[] asciiChars = new char[Encoding.ASCII.GetCharCount(ascibytes, 0, ascibytes.Length)];

Encoding.ASCII.GetChars(ascibytes, 0, ascibytes.Length, asciiChars, 0);
return new string(asciiChars);

但由于必须逃脱，我愿意

str =str.Replace("u", @"\u")

但没有运气。 我该如何转换呢？

Answer 1

这些本质上是UTF-16代码点，因此可以做到（这种方法效率不高，但我认为优化不是主要目标）：

Regex.Replace(
    "u0393u03a5u039du0391u0399u039au0391",
    "u[0-9a-f]{4}",
    m => "" + (char) int.Parse(m.Value.Substring(1), NumberStyles.AllowHexSpecifier)
)

这不能解决字符串中未转义的“常规”字符的歧义： dufface会有效地变成d + \ﾬ + e ，这可能不正确。 但是，它将正确处理代理（ ud83dudc96是💖）。

在此答案中使用该技术是另一种选择：

Regex.Unescape(@"u0393u03a5u039du0391u0399u039au0391".Replace(@"\", @"\\").Replace("u", @"\u"))

如果字符串应该已经包含任何反斜杠，则可以使用多余的\\转义，这可能会错误地解释为转义序列。

Answer 2

另一种方式：

var str = "u0393u03a5u039du0391u0399u039au0391";

if (str.Length > 0 && str[0] == 'u')
    str = str.Substring(1, str.Length - 1);

string chars = string.Concat(str.Split('u').Select(s => 
    Convert.ToChar(Convert.ToInt32("0x" + s,16))));

将未转义的unicode字符串转换为unicode

问题描述

2 个解决方案

解决方案1
2 已采纳 2019-01-25 14:45:52

解决方案2
0 2019-01-25 16:10:08

将未转义的unicode字符串转换为unicode

问题描述

2 个解决方案

解决方案1 2 已采纳 2019-01-25 14:45:52

解决方案2 0 2019-01-25 16:10:08

解决方案1
2 已采纳 2019-01-25 14:45:52

解决方案2
0 2019-01-25 16:10:08