簡體   English   中英

從 quora 中抓取問題答案、日期和投票

[英]scrape question answers, date and upvotes from quora

我正在嘗試使用beautifulsoup從這個答案中抓取答案、日期和投票數字 - 但是我無法選擇class="pagedlist_item" 我想從這門課開始的原因,其中包括每個答案的內容,例如有些帖子沒有贊成票,所以我最終會得到不同長度的元素列表,以防萬一缺少某些內容以及混合相同變量的順序。

items_soup = BeautifulSoup(html, "html")
items_soup.find_all("div", {"class" : "pagedlist_item"})

當我運行此代碼時,它返回一個空列表 - 所以不知道出了什么問題? 然后我想從中提取答案的文本、日期和投票數字(即使沒有 - 所以基本上用 0 替換空白)。

是否可以拆分並獲取我列出的每個元素? 答案文本,答案日期和答案的投票數字 - 目的是創建一個數據框。

請記住:該帖子有 49 個答案,但如果您不向下滾動,則不會顯示所有答案,我想抓取所有 49 個答案。

我可以使用以下代碼獲得您正在尋找的內容:

import requests
from bs4 import BeautifulSoup

url = 'https://www.quora.com/What-is-the-brutal-truth-about-data-scientists'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

question = soup.find('span', {'class': 'ui_qtext_rendered_qtext'})
answers = [ s.text for s in soup.find_all("div", {"class" : "pagedlist_item"}) if s.text ]

結果有question == 'What is the brutal truth about data scientists?' 以及 28 個答案的列表。

運行以下命令時沒有空列表:

import requests
from bs4 import BeautifulSoup

html ='https://www.quora.com/What-is-the-brutal-truth-about-data-scientists'
r = requests.get(url).text
soup = BeautifulSoup(r, 'html')
soup.find_all("div", {"class" : "pagedlist_item"})

請檢查一下! 不確定您是否包含請求。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM