簡體   English   中英

如何將二進制文件中的utf-8代碼轉換為python 3中的html代碼

[英]How to convert utf-8 codes in binary file to html codes in python 3

我正在處理的HTML文件通常是utf-8,但編碼有些破損,因此無法轉換為Unicode。 我的想法是將它們解析為二進制文件,並在第一步中將所有正確的utf-8編碼替換為html代碼。

e.g. "\xc2\xa3" to £

在第二步中,我將使用正確的編碼替換掉損壞的編碼。

我被困在第一步。 替換單個字符可與replace一起使用:

string.replace(b'\xc3\x84', b'Ä')

從表中獲取代碼映射不起作用。 在讀取表格時,utf-8代碼會轉義(b'\\ xc3 \\ x84',我找不到擺脫雙斜杠的方法。

我可以想到一些解決此問題的骯臟方法,但是應該有一個干凈的方法,對嗎?

最好的方法是預先過濾它們

iconv -t utf8 -c SRCFILE > NEWFILE

或者在python中

 with open("somefile_with_bad_utf8.txt","rt",encoding="utf-8",errors="ignore") as myfile:
for line in myfile:
  process()

我想說的是,對於utf-8始終使用python3,但是我已經知道了。

希望有幫助...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM