繁体   English   中英

Web 使用 Python 进行抓取(通用 URL)

[英]Web Scraping using Python (Generic URLs)

我有一组 URL(多个网站),有人可以建议一个 python 库(最好是项目的 github 链接)来执行此操作。 我最初使用“PRAW”从 Reddit 中提取数据,但我想开发一个通用的 python 代码,可用于从 URL 提供的任何网站中提取各种标签。

如果要使用简单、轻量级的库,可以使用BeautifulSoup

from bs4 import BeautifulSoup

doc = "<a href='https://google.com'>Google</a>"
soup = BeautifulSoup(doc,'html.parser')
URL = soup.find('a').get('href')

还有其他选项,例如scrapy框架。

Scrapy是最流行、最简单、最有趣的抓取框架。 关注 xpath 而不是 css,因为 xpath 有更多选择,简单而准确。

这个刮引号的教程可以是你的第一次尝试!

以下是一些有用的链接开始使用:

  1. https://devhints.io/xpath
  2. https://docs.scrapy.org/en/latest/topics/selectors.html

一切顺利!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM