抓取基于登录的网站的最佳方式是什么？

Question

我要从网站自动化文件下载活动（类似于，比方说，yahoomail.com）。 要访问具有此文件下载链接的页面，我要登录，从页面跳转到页面以提供日期等参数，最后单击下载链接。

我在考虑三种方法：

使用WatIN并开发一个Windows服务，定期执行一些WatiN代码遍历页面并下载文件。
使用AutoIT（没什么好主意）
使用简单的HTML解析技术（这里有几个问题，例如，如何在登录后维护会话？如何在执行后退出？

Answer 1

我使用scrapy.org ，它是一个python库。 实际上这很安静。 易于编写蜘蛛，它的功能非常广泛。 包中提供登录后的刮痧网站。

以下是在身份验证后抓取网站的蜘蛛示例。

class LoginSpider(BaseSpider):
    domain_name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return [FormRequest.from_response(response,
                formdata={'username': 'john', 'password': 'secret'},
                callback=self.after_login)]

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        # continue scraping with authenticated session...

Answer 2

我使用机械化为Python成功做了一些事情。 它易于使用，并支持HTTP身份验证，表单处理，cookie，自动HTTP重定向（30X），...基本上唯一缺少的是JavaScript，但如果你需要依赖JS，那么无论如何都要搞砸了。

Answer 3

免费下载管理器非常适合抓取，您可以使用wget 。

Answer 4

尝试使用Selenium Remote Control自动化的Selenium脚本。

抓取基于登录的网站的最佳方式是什么？

问题描述

4 个解决方案

解决方案1
5 2009-11-20 04:49:53

解决方案2
3 2009-11-20 11:27:50

解决方案3
0 2009-11-20 04:41:19

解决方案4
0 已采纳 2009-11-20 04:47:59

抓取基于登录的网站的最佳方式是什么？

问题描述

4 个解决方案

解决方案1 5 2009-11-20 04:49:53

解决方案2 3 2009-11-20 11:27:50

解决方案3 0 2009-11-20 04:41:19

解决方案4 0 已采纳 2009-11-20 04:47:59

解决方案1
5 2009-11-20 04:49:53

解决方案2
3 2009-11-20 11:27:50

解决方案3
0 2009-11-20 04:41:19

解决方案4
0 已采纳 2009-11-20 04:47:59