Python Webscraping：用漂亮的湯/請求解析漢字的問題

Question

我正在抓取一個中文網站，通常解析中文字符是沒有問題的，我用來在 bs4 中查找具有模式 function 的特定 url。 但是，對於這個特定的中文網站，無法正確解析湯。 下面是我用來設置湯的代碼：

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content, "html.parser")

打印湯的一個例子如下：

當前湯

注意：我必須將圖片添加為堆棧，盡管它是垃圾郵件:)

上面應該如下所示：

適當的湯

我想知道我是否必須在請求中指定某種編碼，或者在湯中指定某種編碼，但目前我還沒有找到任何可行的方法。

提前致謝！

Answer 1

我不懂中文。 這會產生預期的結果嗎？

import requests
from bs4 import BeautifulSoup as bs

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content.decode('GBK', 'ignore'), "html.parser")

print(soup)

Python Webscraping：用漂亮的湯/請求解析漢字的問題

問題描述

1 個解決方案

解決方案1
0 已采納 2020-12-18 09:54:13

Python Webscraping：用漂亮的湯/請求解析漢字的問題

問題描述

1 個解決方案

解決方案1 0 已采納 2020-12-18 09:54:13

解決方案1
0 已采納 2020-12-18 09:54:13