簡體   English   中英

Web 使用 Python 進行抓取(通用 URL)

[英]Web Scraping using Python (Generic URLs)

我有一組 URL(多個網站),有人可以建議一個 python 庫(最好是項目的 github 鏈接)來執行此操作。 我最初使用“PRAW”從 Reddit 中提取數據,但我想開發一個通用的 python 代碼,可用於從 URL 提供的任何網站中提取各種標簽。

如果要使用簡單、輕量級的庫,可以使用BeautifulSoup

from bs4 import BeautifulSoup

doc = "<a href='https://google.com'>Google</a>"
soup = BeautifulSoup(doc,'html.parser')
URL = soup.find('a').get('href')

還有其他選項,例如scrapy框架。

Scrapy是最流行、最簡單、最有趣的抓取框架。 關注 xpath 而不是 css,因為 xpath 有更多選擇,簡單而准確。

這個刮引號的教程可以是你的第一次嘗試!

以下是一些有用的鏈接開始使用:

  1. https://devhints.io/xpath
  2. https://docs.scrapy.org/en/latest/topics/selectors.html

一切順利!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM