[英]Web Scraping using Python (Generic URLs)
我有一组 URL(多个网站),有人可以建议一个 python 库(最好是项目的 github 链接)来执行此操作。 我最初使用“PRAW”从 Reddit 中提取数据,但我想开发一个通用的 python 代码,可用于从 URL 提供的任何网站中提取各种标签。
如果要使用简单、轻量级的库,可以使用BeautifulSoup
from bs4 import BeautifulSoup
doc = "<a href='https://google.com'>Google</a>"
soup = BeautifulSoup(doc,'html.parser')
URL = soup.find('a').get('href')
还有其他选项,例如scrapy框架。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.