如何將二進制文件中的utf-8代碼轉換為python 3中的html代碼

Question

我正在處理的HTML文件通常是utf-8，但編碼有些破損，因此無法轉換為Unicode。 我的想法是將它們解析為二進制文件，並在第一步中將所有正確的utf-8編碼替換為html代碼。

e.g. "\xc2\xa3" to &pound;

在第二步中，我將使用正確的編碼替換掉損壞的編碼。

我被困在第一步。 替換單個字符可與replace一起使用：

string.replace(b'\xc3\x84', b'&Auml;')

從表中獲取代碼映射不起作用。 在讀取表格時，utf-8代碼會轉義（b'\\ xc3 \\ x84'，我找不到擺脫雙斜杠的方法。

我可以想到一些解決此問題的骯臟方法，但是應該有一個干凈的方法，對嗎？

Answer 1

最好的方法是預先過濾它們

iconv -t utf8 -c SRCFILE > NEWFILE

或者在python中

 with open("somefile_with_bad_utf8.txt","rt",encoding="utf-8",errors="ignore") as myfile:
for line in myfile:
  process()

我想說的是，對於utf-8始終使用python3，但是我已經知道了。

希望有幫助...