使用 python - BeautifulSoup 抓取網站

Question

這是我的第一個問題，我開始學習 python，已經看過很多視頻。

感謝您能在下面的代碼中啟發我，

我收到以下錯誤“AttributeError：'NoneType' object 沒有屬性'find'”

我只需要搜索一個單詞（在這種情況下是鸚鵡）並刮掉並列出 class:"snippet" 中的標題

import requests
from bs4 import BeautifulSoup

page = requests.get("http://web.archive.org/web/*/parrot#")
soup = BeautifulSoup(page.content, 'html.parser')
container = soup.find("div", {"class":"search-result-container container"})
mysnippet = container.find("div", {"class":"snippet"})
print("List of Titles")
print(mysnippet)

Answer 1

如果你打印你的湯，你會發現數據不存在，甚至那個 div 標簽 contains::before 意味着動態加載
所以你可以先嘗試這種方法 go 到 chrome 開發者模式然后網絡選項卡現在刷新你的瀏覽器
在 xhr 中，您在名稱選項卡下找到鏈接，其中第二個鏈接包含 json 數據，因此您可以通過從該查找標題復制鏈接地址來獲取該鏈接

 import requests res=requests.get("http://web.archive.org/__wb/search/anchor?q=parrot") main_data=res.json() for i in range(len(main_data)): print(main_data[i]['text'])

Output：

parrot
dead parrot society
parrot forum
parrot vids
....

圖片：

使用 python - BeautifulSoup 抓取網站

問題描述

1 個解決方案

解決方案1
0 已采納 2021-05-30 09:25:06

使用 python - BeautifulSoup 抓取網站

問題描述

1 個解決方案

解決方案1 0 已采納 2021-05-30 09:25:06

解決方案1
0 已采納 2021-05-30 09:25:06