“utf-8”編解碼器無法解碼 position 中的字節 0x8b 1：無效的起始字節

Question

我正在嘗試通過以下代碼讀取 web 頁面的頁面源：

from urllib.request import urlopen

url = "http://www.tsetmc.com/Loader.aspx?ParTree=15"

page = urlopen(url)

htmlSource = page.read().decode("utf-8")

f=open("output.txt",'w')
f.write(htmlSource)

但我得到了這個錯誤：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

我不知道這個頁面是否用 utf-8 編碼。

謝謝你的幫助。

Answer 1

我不知道這個頁面是否用 utf-8 編碼。

如果您不知道頁面是如何編碼的，您可以將字節寫入文件而不嘗試檢查它們：

page = urlopen(url)
htmlSource = page.read()
f=open("output.txt",'wb')
f.write(htmlSource)

“utf-8”編解碼器無法解碼 position 中的字節 0x8b 1：無效的起始字節

問題描述

1 個解決方案

解決方案1
0 2020-08-20 18:52:51

“utf-8”編解碼器無法解碼 position 中的字節 0x8b 1：無效的起始字節

問題描述

1 個解決方案

解決方案1 0 2020-08-20 18:52:51

解決方案1
0 2020-08-20 18:52:51