如何在该网站上抓取动态生成的数据？

Question

这是我要抓取的网站http://www.quickbid.com.tw/

我希望可以将class =“ timestamp”放入python中的变量中，以便我可以按自己喜欢的方式解析“ timestamp”。

我曾尝试使用scrapy抓取“时间戳记”，但是因为scrapy不支持javascript生成的数据，所以无法获取它。

我还尝试使用Firebug监视“快速出价”和我的浏览器之间传输的数据包。 我发现每秒有一些数据包正在传输，以便同步时间戳。 但是我仍然不知道这些数据包是如何产生的。 我听说硒可以帮助我达到目标。 但是在阅读了Selenium（ http://www.jroller.com/selenium/ ）的教程之后，我仍然无法获得有关如何抓取所需数据的线索。

有人知道如何从该网站抓取数据吗？ 任何帮助将不胜感激。

Answer 1

我通常使用基本请求和BeautifulSoup库进行抓取。 我这样做：

import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.quickbid.com.tw/")
c = r.content
soup = BeautifulSoup(c,'html.parser')
timestanp = soup.findAll('span',{'class':'timestamp'})
print timestanp

它返回：

[<span class="timestamp">Save91%</span>, <span class="timestamp">Save84%</span>, <span class="timestamp">Save96%</span>, <span class="timestamp">Save99%</span>, <span class="timestamp">Save82%</span>]

希望这是您想要的。

Answer 2

您绝对可以使用Selenium做到这一点。 实际上，这将非常容易。 Selenium具有适用于多种不同编程语言的插件，因此只需选择您更了解的插件，然后阅读该特定语言的Selenium文档即可。

我个人使用python，这很容易理解。

这是Python的Selenium文档。

Answer 3

最后，我使用了一个名为Greasemonkey的Firefox插件来抓取该网站。

https://addons.mozilla.org/en-US/firefox/addon/greasemonkey/

Greasemonkey可以在http://www.quickbid.com.tw/中捕获动态生成的数据

如何在该网站上抓取动态生成的数据？

问题描述

3 个解决方案

解决方案1
1 2016-07-11 03:59:37

解决方案2
0 2014-01-07 13:19:34

解决方案3
0 已采纳 2014-01-08 14:01:12

如何在该网站上抓取动态生成的数据？

问题描述

3 个解决方案

解决方案1 1 2016-07-11 03:59:37

解决方案2 0 2014-01-07 13:19:34

解决方案3 0 已采纳 2014-01-08 14:01:12

解决方案1
1 2016-07-11 03:59:37

解决方案2
0 2014-01-07 13:19:34

解决方案3
0 已采纳 2014-01-08 14:01:12