簡體   English   中英

使用 python - BeautifulSoup 抓取網站

[英]Website scraping with python - BeautifulSoup

這是我的第一個問題,我開始學習 python,已經看過很多視頻。

感謝您能在下面的代碼中啟發我,

我收到以下錯誤“AttributeError:'NoneType' object 沒有屬性'find'”

我只需要搜索一個單詞(在這種情況下是鸚鵡)並刮掉並列出 class:"snippet" 中的標題

import requests
from bs4 import BeautifulSoup

page = requests.get("http://web.archive.org/web/*/parrot#")
soup = BeautifulSoup(page.content, 'html.parser')
container = soup.find("div", {"class":"search-result-container container"})
mysnippet = container.find("div", {"class":"snippet"})
print("List of Titles")
print(mysnippet)
  1. 如果你打印你的湯,你會發現數據不存在,甚至那個 div 標簽 contains::before 意味着動態加載

  2. 所以你可以先嘗試這種方法 go 到 chrome 開發者模式然后網絡選項卡現在刷新你的瀏覽器

  3. 在 xhr 中,您在名稱選項卡下找到鏈接,其中第二個鏈接包含 json 數據,因此您可以通過從該查找標題復制鏈接地址來獲取該鏈接

 import requests res=requests.get("http://web.archive.org/__wb/search/anchor?q=parrot") main_data=res.json() for i in range(len(main_data)): print(main_data[i]['text'])

Output:

parrot
dead parrot society
parrot forum
parrot vids
....

圖片:

在此處輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM