[英]How to convert utf-8 codes in binary file to html codes in python 3
我正在處理的HTML文件通常是utf-8,但編碼有些破損,因此無法轉換為Unicode。 我的想法是將它們解析為二進制文件,並在第一步中將所有正確的utf-8編碼替換為html代碼。
e.g. "\xc2\xa3" to £
在第二步中,我將使用正確的編碼替換掉損壞的編碼。
我被困在第一步。 替換單個字符可與replace一起使用:
string.replace(b'\xc3\x84', b'Ä')
從表中獲取代碼映射不起作用。 在讀取表格時,utf-8代碼會轉義(b'\\ xc3 \\ x84',我找不到擺脫雙斜杠的方法。
我可以想到一些解決此問題的骯臟方法,但是應該有一個干凈的方法,對嗎?
最好的方法是預先過濾它們
iconv -t utf8 -c SRCFILE > NEWFILE
或者在python中
with open("somefile_with_bad_utf8.txt","rt",encoding="utf-8",errors="ignore") as myfile:
for line in myfile:
process()
我想說的是,對於utf-8始終使用python3,但是我已經知道了。
希望有幫助...
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.