解碼C＃中的特殊字符

Question

我想知道我怎么可以在特殊字符解碼â€¢為HTML？

我嘗試過使用System.Web.HttpUtility.HtmlDecode但還沒有運氣。

Answer 1

這里的問題不是HTML解碼，而是文本在一個字符集（例如，windows-1252）中編碼，然后再次編碼為第二個（UTF-8）。

在UTF-8中， •被解碼為E2 80 A2 。 當使用窗口1252的編碼讀這個字節序列， E2 80 A2編碼為â€¢ 。 （再次保存為UTF-8 â€¢變得C3 A2 E2 82 AC C2 A2 20 54 65 73 74 ）。

如果文件是windows-1252編碼的文件，則可以使用正確的編碼簡單地讀取文件（例如，作為StreamReader構造函數的參數）。

new StreamReader(..., Encoding.GetEncoding("windows-1252"));

如果使用不正確的編碼保存文件，則在某些情況下可以反轉編碼。 例如，對於問題中的字符串序列，您可以編寫：

string s = "â€¢"; // the string sequence that is not properly encoded
var b = Encoding.GetEncoding("windows-1252").GetBytes(s); // b = `E2 80 A2`
string c = Encoding.UTF8.GetString(b);  // c = `•`

請注意，許多常見的非打印字符在U+2000到U+2044 （參考）范圍內，例如“智能引號”，項目符號和短划線。 因此，序列â€? 在哪里? 是任何字符，通常表示這種類型的編碼錯誤。 這樣可以更廣泛地糾正此類錯誤：

static string CorrectText(string input)
{
    var winencoding = Encoding.GetEncoding("windows-1252");
    return Regex.Replace(input, "â€.",
        m => Encoding.UTF8.GetString(winencoding.GetBytes(m.Value)));
}

使用以這種方式格式錯誤的文本調用此函數將糾正一些（但不是全部）錯誤。 例如CorrectText("â€¢Testâ€“orâ€œ") •Test–or“ CorrectText("â€¢Testâ€“orâ€œ")將返回預期的•Test–or“ CorrectText("â€¢Testâ€“orâ€œ") •Test–or“ 。

Answer 2

HtmlDecode用於將Html編碼的字符串轉換為可讀的字符串格式。 也許HtmlEncode可能就是你真正想要的東西。

解碼C＃中的特殊字符

問題描述

2 個解決方案

解決方案1
5 2013-05-16 02:20:40

解決方案2
2 2013-05-16 01:19:44

解碼C＃中的特殊字符

問題描述

2 個解決方案

解決方案1 5 2013-05-16 02:20:40

解決方案2 2 2013-05-16 01:19:44

解決方案1
5 2013-05-16 02:20:40

解決方案2
2 2013-05-16 01:19:44