簡體   English   中英

如何使用BeautifulSoup抓取用javascript生成的數據?

[英]How do I scrape data generated with javascript using BeautifulSoup?

我正在嘗試使用python和BeautifulSoup的網絡抓取功能從博客中遷移一些評論。 我要查找的內容不在HTML本身中,並且似乎是在script標簽(我找不到)中生成的。 我已經看到了一些有關此問題的答案,但是大多數答案都是特定於某個問題的,我似乎無法弄清楚如何將其應用於我的網站。 我只是想從這樣的頁面中抓取評論:

http://www.themasterpiececards.com/famous-paintings-reviewed/bid/92327/famous-paintings-duccio-s-maesta

我也嘗試過Selenium,但是我目前正在使用基於Cloud9的IDE,它似乎不支持Web驅動程序。

如果我搞砸了任何術語,我深表歉意,我是編程新手。 如果有人有任何提示,那將有所幫助。 謝謝!

您有很多方法可以刪除此類內容。 一種是找出如何在此網站上加載評論。 在Chrome開發人員工具中快速查找時,通過 api調用會加載針對該頁面的注釋。

這可能不適合您,因為您可能不會為每個不同的頁面生成此URL。

另一種更可靠的方法是使用無GUI瀏覽器呈現此類js內容,為便於實現,我建議使用scrapy with splash .Splash是一個python框架,可為您的請求呈現大部分內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM