將 Unicode 字符串轉換為轉義的 ASCII 字符串

Question

如何轉換此字符串：

This string contains the Unicode character Pi(π)

轉換為轉義的 ASCII 字符串：

This string contains the Unicode character Pi(\u03a0)

反之亦然？

C# 中可用的當前編碼將 π 字符轉換為“?”。 我需要保留那個性格。

Answer 1

這在 \\uXXXX 格式之間來回切換。

class Program {
    static void Main( string[] args ) {
        string unicodeString = "This function contains a unicode character pi (\u03a0)";

        Console.WriteLine( unicodeString );

        string encoded = EncodeNonAsciiCharacters(unicodeString);
        Console.WriteLine( encoded );

        string decoded = DecodeEncodedNonAsciiCharacters( encoded );
        Console.WriteLine( decoded );
    }

    static string EncodeNonAsciiCharacters( string value ) {
        StringBuilder sb = new StringBuilder();
        foreach( char c in value ) {
            if( c > 127 ) {
                // This character is too big for ASCII
                string encodedValue = "\\u" + ((int) c).ToString( "x4" );
                sb.Append( encodedValue );
            }
            else {
                sb.Append( c );
            }
        }
        return sb.ToString();
    }

    static string DecodeEncodedNonAsciiCharacters( string value ) {
        return Regex.Replace(
            value,
            @"\\u(?<Value>[a-zA-Z0-9]{4})",
            m => {
                return ((char) int.Parse( m.Groups["Value"].Value, NumberStyles.HexNumber )).ToString();
            } );
    }
}

輸出：

此函數包含一個 unicode 字符 pi (π)

此函數包含一個 unicode 字符 pi (\Π)

此函數包含一個 unicode 字符 pi (π)

Answer 2

對於Unescape，您可以簡單地使用以下功能：

System.Text.RegularExpressions.Regex.Unescape(string)

System.Uri.UnescapeDataString(string)

我建議使用這種方法（使用 UTF-8 效果更好）：

UnescapeDataString(string)

Answer 3

string StringFold(string input, Func<char, string> proc)
{
  return string.Concat(input.Select(proc).ToArray());
}

string FoldProc(char input)
{
  if (input >= 128)
  {
    return string.Format(@"\u{0:x4}", (int)input);
  }
  return input.ToString();
}

string EscapeToAscii(string input)
{
  return StringFold(input, FoldProc);
}

Answer 4

作為單線：

var result = Regex.Replace(input, @"[^\x00-\x7F]", c => 
    string.Format(@"\u{0:x4}", (int)c.Value[0]));

Answer 5

class Program
{
        static void Main(string[] args)
        {
            char[] originalString = "This string contains the unicode character Pi(π)".ToCharArray();
            StringBuilder asAscii = new StringBuilder(); // store final ascii string and Unicode points
            foreach (char c in originalString)
            {
                // test if char is ascii, otherwise convert to Unicode Code Point
                int cint = Convert.ToInt32(c);
                if (cint <= 127 && cint >= 0)
                    asAscii.Append(c);
                else
                    asAscii.Append(String.Format("\\u{0:x4} ", cint).Trim());
            }
            Console.WriteLine("Final string: {0}", asAscii);
            Console.ReadKey();
        }
}

所有非 ASCII 字符都轉換為其 Unicode 代碼點表示形式並附加到最終字符串。

Answer 6

這是我目前的實現：

public static class UnicodeStringExtensions
{
    public static string EncodeNonAsciiCharacters(this string value) {
        var bytes = Encoding.Unicode.GetBytes(value);
        var sb = StringBuilderCache.Acquire(value.Length);
        bool encodedsomething = false;
        for (int i = 0; i < bytes.Length; i += 2) {
            var c = BitConverter.ToUInt16(bytes, i);
            if ((c >= 0x20 && c <= 0x7f) || c == 0x0A || c == 0x0D) {
                sb.Append((char) c);
            } else {
                sb.Append($"\\u{c:x4}");
                encodedsomething = true;
            }
        }
        if (!encodedsomething) {
            StringBuilderCache.Release(sb);
            return value;
        }
        return StringBuilderCache.GetStringAndRelease(sb);
    }


    public static string DecodeEncodedNonAsciiCharacters(this string value)
      => Regex.Replace(value,/*language=regexp*/@"(?:\\u[a-fA-F0-9]{4})+", Decode);

    static readonly string[] Splitsequence = new [] { "\\u" };
    private static string Decode(Match m) {
        var bytes = m.Value.Split(Splitsequence, StringSplitOptions.RemoveEmptyEntries)
                .Select(s => ushort.Parse(s, NumberStyles.HexNumber)).SelectMany(BitConverter.GetBytes).ToArray();
        return Encoding.Unicode.GetString(bytes);
    }
}

這通過了一個測試：

public void TestBigUnicode() {
    var s = "\U00020000";
    var encoded = s.EncodeNonAsciiCharacters();
    var decoded = encoded.DecodeEncodedNonAsciiCharacters();
    Assert.Equals(s, decoded);
}

使用編碼值： "\?\?"

此實現使用StringBuilderCache （參考源鏈接）

Answer 7

@Adam Sills 的答案的一個小補丁，它解決了FormatException在輸入字符串如"c:\«\\otherdirectory\\ " 加上RegexOptions.Compiled使Regex編譯速度更快的情況下：

    private static Regex DECODING_REGEX = new Regex(@"\\u(?<Value>[a-fA-F0-9]{4})", RegexOptions.Compiled);
    private const string PLACEHOLDER = @"#!#";
    public static string DecodeEncodedNonAsciiCharacters(this string value)
    {
        return DECODING_REGEX.Replace(
            value.Replace(@"\\", PLACEHOLDER),
            m => { 
                return ((char)int.Parse(m.Groups["Value"].Value, NumberStyles.HexNumber)).ToString(); })
            .Replace(PLACEHOLDER, @"\\");
    }

Answer 8

要存儲實際的 Unicode 代碼點，您必須首先將字符串的 UTF-16 代碼單元解碼為 UTF-32 代碼單元（目前與 Unicode 代碼點相同）。 為此使用System.Text.Encoding.UTF32.GetBytes() ，然后根據需要將結果字節寫入StringBuilder ，即

static void Main(string[] args) 
{ 
    String originalString = "This string contains the unicode character Pi(π)"; 
    Byte[] bytes = Encoding.UTF32.GetBytes(originalString);
    StringBuilder asAscii = new StringBuilder();
    for (int idx = 0; idx < bytes.Length; idx += 4)
    { 
        uint codepoint = BitConverter.ToUInt32(bytes, idx);
        if (codepoint <= 127) 
            asAscii.Append(Convert.ToChar(codepoint)); 
        else 
            asAscii.AppendFormat("\\u{0:x4}", codepoint); 
    } 
    Console.WriteLine("Final string: {0}", asAscii); 
    Console.ReadKey(); 
}

Answer 9

您需要使用Encoding類中的Convert()方法：

創建一個表示 ASCII 編碼的Encoding對象
創建一個表示 Unicode 編碼的Encoding對象
使用源編碼、目標編碼和要編碼的字符串調用Encoding.Convert()

有一個例子在這里：

using System;
using System.Text;

namespace ConvertExample
{
   class ConvertExampleClass
   {
      static void Main()
      {
         string unicodeString = "This string contains the unicode character Pi(\u03a0)";

         // Create two different encodings.
         Encoding ascii = Encoding.ASCII;
         Encoding unicode = Encoding.Unicode;

         // Convert the string into a byte[].
         byte[] unicodeBytes = unicode.GetBytes(unicodeString);

         // Perform the conversion from one encoding to the other.
         byte[] asciiBytes = Encoding.Convert(unicode, ascii, unicodeBytes);

         // Convert the new byte[] into a char[] and then into a string.
         // This is a slightly different approach to converting to illustrate
         // the use of GetCharCount/GetChars.
         char[] asciiChars = new char[ascii.GetCharCount(asciiBytes, 0, asciiBytes.Length)];
         ascii.GetChars(asciiBytes, 0, asciiBytes.Length, asciiChars, 0);
         string asciiString = new string(asciiChars);

         // Display the strings created before and after the conversion.
         Console.WriteLine("Original string: {0}", unicodeString);
         Console.WriteLine("Ascii converted string: {0}", asciiString);
      }
   }
}

將 Unicode 字符串轉換為轉義的 ASCII 字符串

問題描述

9 個解決方案

解決方案1
140 已采納 2009-10-23 20:59:01

解決方案2
23 2015-07-11 21:53:36

解決方案3
11 2009-10-23 20:54:09

解決方案4
4 2014-08-17 14:03:48

解決方案5
2 2009-10-23 21:28:55

解決方案6
2 2016-09-06 15:52:51

解決方案7
1 2012-09-24 10:50:49

解決方案8
1 2009-10-23 22:08:21

解決方案9
0 2009-10-23 20:20:57

將 Unicode 字符串轉換為轉義的 ASCII 字符串

問題描述

9 個解決方案

解決方案1 140 已采納 2009-10-23 20:59:01

解決方案2 23 2015-07-11 21:53:36

解決方案3 11 2009-10-23 20:54:09

解決方案4 4 2014-08-17 14:03:48

解決方案5 2 2009-10-23 21:28:55

解決方案6 2 2016-09-06 15:52:51

解決方案7 1 2012-09-24 10:50:49

解決方案8 1 2009-10-23 22:08:21

解決方案9 0 2009-10-23 20:20:57

解決方案1
140 已采納 2009-10-23 20:59:01

解決方案2
23 2015-07-11 21:53:36

解決方案3
11 2009-10-23 20:54:09

解決方案4
4 2014-08-17 14:03:48

解決方案5
2 2009-10-23 21:28:55

解決方案6
2 2016-09-06 15:52:51

解決方案7
1 2012-09-24 10:50:49

解決方案8
1 2009-10-23 22:08:21

解決方案9
0 2009-10-23 20:20:57