Python Webscraping：用漂亮的汤/请求解析汉字的问题

Question

我正在抓取一个中文网站，通常解析中文字符是没有问题的，我用来在 bs4 中查找具有模式 function 的特定 url。 但是，对于这个特定的中文网站，无法正确解析汤。 下面是我用来设置汤的代码：

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content, "html.parser")

打印汤的一个例子如下：

当前汤

注意：我必须将图片添加为堆栈，尽管它是垃圾邮件:)

上面应该如下所示：

适当的汤

我想知道我是否必须在请求中指定某种编码，或者在汤中指定某种编码，但目前我还没有找到任何可行的方法。

提前致谢！

Answer 1

我不懂中文。 这会产生预期的结果吗？

import requests
from bs4 import BeautifulSoup as bs

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content.decode('GBK', 'ignore'), "html.parser")

print(soup)

Python Webscraping：用漂亮的汤/请求解析汉字的问题

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-12-18 09:54:13

Python Webscraping：用漂亮的汤/请求解析汉字的问题

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-12-18 09:54:13

解决方案1
0 已采纳 2020-12-18 09:54:13