[英]Python Webscraping: Problems parsing chinese characters with beautiful soup/requests
我正在抓取一個中文網站,通常解析中文字符是沒有問題的,我用來在 bs4 中查找具有模式 function 的特定 url。 但是,對於這個特定的中文網站,無法正確解析湯。 下面是我用來設置湯的代碼:
start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content, "html.parser")
打印湯的一個例子如下:
注意:我必須將圖片添加為堆棧,盡管它是垃圾郵件:)
上面應該如下所示:
我想知道我是否必須在請求中指定某種編碼,或者在湯中指定某種編碼,但目前我還沒有找到任何可行的方法。
提前致謝!
我不懂中文。 這會產生預期的結果嗎?
import requests
from bs4 import BeautifulSoup as bs
start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content.decode('GBK', 'ignore'), "html.parser")
print(soup)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.