繁体   English   中英

Python Webscraping:用漂亮的汤/请求解析汉字的问题

[英]Python Webscraping: Problems parsing chinese characters with beautiful soup/requests

我正在抓取一个中文网站,通常解析中文字符是没有问题的,我用来在 bs4 中查找具有模式 function 的特定 url。 但是,对于这个特定的中文网站,无法正确解析汤。 下面是我用来设置汤的代码:

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content, "html.parser")

打印汤的一个例子如下:

当前汤

注意:我必须将图片添加为堆栈,尽管它是垃圾邮件:)

上面应该如下所示:

适当的汤

我想知道我是否必须在请求中指定某种编码,或者在汤中指定某种编码,但目前我还没有找到任何可行的方法。

提前致谢!

我不懂中文。 这会产生预期的结果吗?

import requests
from bs4 import BeautifulSoup as bs

start = f'http://www.shuichan.cc/news_list.asp?action=&c_id=93&s_id=210&page={1}'
r = requests.get(start)
soup = bs(r.content.decode('GBK', 'ignore'), "html.parser")

print(soup)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM