[英]How to scrape dynamically generated data in this website?
这是我要抓取的网站http://www.quickbid.com.tw/
我希望可以将class =“ timestamp”放入python中的变量中,以便我可以按自己喜欢的方式解析“ timestamp”。
我曾尝试使用scrapy抓取“时间戳记”,但是因为scrapy不支持javascript生成的数据,所以无法获取它。
我还尝试使用Firebug监视“快速出价”和我的浏览器之间传输的数据包。 我发现每秒有一些数据包正在传输,以便同步时间戳。 但是我仍然不知道这些数据包是如何产生的。 我听说硒可以帮助我达到目标。 但是在阅读了Selenium( http://www.jroller.com/selenium/ )的教程之后,我仍然无法获得有关如何抓取所需数据的线索。
有人知道如何从该网站抓取数据吗? 任何帮助将不胜感激。
我通常使用基本请求和BeautifulSoup库进行抓取。 我这样做:
import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.quickbid.com.tw/")
c = r.content
soup = BeautifulSoup(c,'html.parser')
timestanp = soup.findAll('span',{'class':'timestamp'})
print timestanp
它返回:
[<span class="timestamp">Save91%</span>, <span class="timestamp">Save84%</span>, <span class="timestamp">Save96%</span>, <span class="timestamp">Save99%</span>, <span class="timestamp">Save82%</span>]
希望这是您想要的。
您绝对可以使用Selenium做到这一点。 实际上,这将非常容易。 Selenium具有适用于多种不同编程语言的插件,因此只需选择您更了解的插件,然后阅读该特定语言的Selenium文档即可。
我个人使用python,这很容易理解。
这是Python的Selenium文档 。
最后,我使用了一个名为Greasemonkey的Firefox插件来抓取该网站。
https://addons.mozilla.org/en-US/firefox/addon/greasemonkey/
Greasemonkey可以在http://www.quickbid.com.tw/中捕获动态生成的数据
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.