使用unicode字符讀取文件

Question

我有一個asp.net c＃頁面，我正在嘗試讀取具有以下字符的文件並將其轉換為'。 （從傾斜的撇號到撇號）。

FileInfo fileinfo = new FileInfo(FileLocation);
string content = File.ReadAllText(fileinfo.FullName);

//strip out bad characters
content = content.Replace("’", "'");

這不起作用，它將傾斜的撇號變為？ 分數。

Answer 1

我懷疑問題不在於替換，而在於讀取文件本身。 當我嘗試這種方式（使用Word和復制粘貼）時，我得到了與您相同的結果，但是檢查content顯示.Net框架認為該字符是Unicode字符65533 ，即“WTF？” 字符串替換前的字符。 您可以通過檢查Visual Studio調試器中的相關字符來自行檢查，它應顯示字符代碼：

content[0]; // 65533 '�'

替換不起作用的原因很簡單 - content不包含您給它的字符串：

content.IndexOf("’"); // -1

至於為什么文件讀取不正常 - 您在讀取文件時可能使用了錯誤的編碼。 （如果沒有指定編碼，則.Net框架將嘗試為您確定正確的編碼，但是沒有100％可靠的方法來執行此操作，因此通常可能會出錯）。 您需要的確切編碼取決於文件本身，但在我的情況下，使用的編碼是擴展ASCII ，因此要讀取我只需要指定正確編碼的文件：

string content = File.ReadAllText(fileinfo.FullName, Encoding.GetEncoding("iso-8859-1"));

（見這個問題）。

您還需要確保在替換字符串中指定正確的字符 - 在代碼中使用“奇數”字符時，您可能會發現通過字符代碼指定字符更可靠，而不是字符串文字（這可能會導致如果源文件的編碼發生變化，則會出現問題，例如以下內容對我有用：

content = content.Replace("\u0092", "'");

Answer 2

// This should replace smart single quotes with a straight single quote

Regex.Replace(content, @"(\u2018|\u2019)", "'");

//However the better approach seems to be to read the page with the proper encoding and leave the quotes alone
var sreader= new StreamReader(fileInfo.Create(), Encoding.GetEncoding(1252));

Answer 3

我敢打賭，該文件是在Windows-1252中編碼的。 這幾乎與ISO 8859-1相同。 區別在於Windows-1252使用“可顯示的字符而不是0x80到0x9F范圍內的控制字符”。 （這是傾斜的撇號所在的位置。即0x92）

//Specify Windows-1252 here
string content = File.ReadAllText(fileinfo.FullName, Encoding.GetEncoding(1252));
//Your replace code will then work as is
content = content.Replace("’", "'");

Answer 4

如果你使用String（大寫）而不是字符串，它應該能夠處理你拋出的任何Unicode。 首先嘗試，看看是否有效。

使用unicode字符讀取文件

問題描述

4 個解決方案

解決方案1
15 2011-04-27 03:31:43

解決方案2
2 2011-04-27 00:55:57

解決方案3
2 2011-05-26 17:07:19

解決方案4
0 2011-04-27 01:56:47

使用unicode字符讀取文件

問題描述

4 個解決方案

解決方案1 15 2011-04-27 03:31:43

解決方案2 2 2011-04-27 00:55:57

解決方案3 2 2011-05-26 17:07:19

解決方案4 0 2011-04-27 01:56:47

解決方案1
15 2011-04-27 03:31:43

解決方案2
2 2011-04-27 00:55:57

解決方案3
2 2011-05-26 17:07:19

解決方案4
0 2011-04-27 01:56:47