嘗試使用Java在html文件中讀寫時出現編碼錯誤

Question

我正在嘗試從html文件中讀取一些文本，以特定方式對其進行修改，然后將結果寫入新的html文件中。 但是問題在於文本不是用英語書寫的，因此某些字符被替換為黑白“？” 分數。 在我的html文件中，我有< meta http-equiv="Content-Type" content="text/html; charset=utf-8"> 。 我究竟做錯了什么？ 也許不是合適的讀者和作家？

StringBuilder sb = new StringBuilder();
BufferedReader br = new BufferedReader(new FileReader("inputFile.html"));
String line;
while ( (line = br.readLine()) != null) {
     sb.append(line);
}
String result = doSomeChanges(sb);
BufferedWriter out = new BufferedWriter(new FileWriter("outputFile.html")); 
out.write(result); 
out.close();

Answer 1

也許不是合適的讀者和作家？

究竟。 FileReader和FileWriter是垃圾。 忘記它們的存在。 它們隱式使用平台默認編碼，並且不允許您覆蓋此默認值。

而是使用以下命令：

BufferedReader br = new BufferedReader(
    new InputStreamReader(new FileInputStream("inputFile.html"), "UTF-8"));

BufferedWriter out = new BufferedWriter(
    new OutputStreamWriter(new FileOutputStream("outputFile.html"), "UTF-8"));

Answer 2

FileReader和FileWriter使用平台默認編碼，這不是您想要的。 （我一直認為這是這些API中的致命缺陷。）

而是使用分別包裝在InputStreamReader和OutputStreamWriter中的FileInputStream和FileOutputStream 。 這使您可以顯式設置編碼-在這種情況下應為UTF-8。

Answer 3

您使用BufferedReader，它將忽略文件的html結構。 這就是為什么<meta http-equiv="Content-Type" content="text/html; charset=utf-8">不起作用的原因。

試試這個：

BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("zzz"), "utf8")));

Answer 4

為了使生活更輕松，您還可以使用來自Apache Commons IO項目的FileUtils ，該項目具有讀寫文件和考慮編碼的字符串的方法。

嘗試使用Java在html文件中讀寫時出現編碼錯誤

問題描述

4 個解決方案

解決方案1
5 已采納 2010-08-18 08:45:50

解決方案2
2 2010-08-18 08:44:18

解決方案3
1 2010-08-18 08:46:32

解決方案4
1 2010-08-18 08:50:52

嘗試使用Java在html文件中讀寫時出現編碼錯誤

問題描述

4 個解決方案

解決方案1 5 已采納 2010-08-18 08:45:50

解決方案2 2 2010-08-18 08:44:18

解決方案3 1 2010-08-18 08:46:32

解決方案4 1 2010-08-18 08:50:52

解決方案1
5 已采納 2010-08-18 08:45:50

解決方案2
2 2010-08-18 08:44:18

解決方案3
1 2010-08-18 08:46:32

解決方案4
1 2010-08-18 08:50:52