![](/img/trans.png)
[英]UnicodeDecodeError: 'utf8' codec can't decode byte 0xf6 in position 178175077: invalid start byte
[英]'utf-8' codec can't decode byte 0xf6 in position 139604: invalid start byte
我正在做一個知識工程項目。
當我在搜尋某些科學家的個人站點時,發生了此錯誤。
import html2text
import requests
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import urllib
homepage = "http://angom.myweb.cs.uwindsor.ca"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
req = urllib.request.Request(url=homepage, headers=headers)
print(req)
c = urlopen(req).read()
print(type(c))
content = urlopen(req).read().decode("utf-8")
UnicodeDecodeError:“ utf-8”編解碼器無法解碼位置139604中的字節0xf6:無效的起始字節
頁面標題中的編碼說明:
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
..所以在解碼字符串時使用它。
content = urlopen(req).read().decode("windows-1252")
將在這種情況下工作。
如果您打算使用BeautifulSoup, 那么在確定編碼方面已經做得非常好 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.