繁体   English   中英

如何从此javascript网站抓取图像?

[英]How to scrape the images from this javascript website?

连结文字

这是来自数字图书库的链接。有前进和后退按钮可以查看下一页和上一页。我想自动下载这些图片。 我曾经在python中使用过urllib,但该网站很快将其禁止。 我只想下载本书供学习之用,所以谁能向我推荐一些编程工具,例如网络蜘蛛程序,它可以模拟翻页过程并自动获取图片。 谢谢!

wget是出色的网络蜘蛛

http://linux.die.net/man/1/wget

该站点使用Javascript,因此您无法轻松地使用Python抓取它。 两个建议:

  1. 确定单击下一步时正在发出的请求。 您可以使用Firebug之类的工具来执行此操作。 然后,您可能会发现无需处理任何JS就可以抓取它。

  2. 使用Selenium之类的工具,该工具允许使用浏览器脚本来“执行” JS。

至于阻止您的网站,有两种方法可以减少被阻止的机会:

  1. 将您的用户代理更改为通用浏览器(例如Firefox)的代理。

  2. 在访问下一张图像之间添加随机延迟,使您看起来更像人。

您需要一个真正的浏览器才能使用此(种类)网站。 硒是一种选择,但它更适合于Web测试。 对于网页抓取,iMacros确实很棒。 我进行了快速测试,它与Firefox / IE的iMacros一起使用时效果很好。

克里斯

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM