刮取需要使用Python登录的Javascript呈现页面

Question

我的问题是，当使用Javascript呈现页面时，我无法刮擦使用登录名的网站。

我可以使用以下代码轻松登录：

import requests
from lxml import html

payload ={
    "username":"username",
    "password":"password"
}
session_requests = requests.session()
result = session_requests.get(login_url)
tree = html.fromstring(result.text)
result = session_requests.post(
    login_url,
    data = payload,
    headers = dict(referer=login_url)
)

然后，我可以使用以下代码获取一些值：

result = session_requests.get(agent_url, headers = dict(referer = agent_url ))
tree = html.fromstring(result.content)
needed_info = tree.xpath("//div[@class='col-md-6']/div[@class='table-responsive']/table/tbody/tr[22]/td[2]")[0].text

但是，并不是所有内容都呈现出来。

我也尝试过使用dryscrape，但是，它在Windows上不起作用。 Selenium太重了，无法满足我的需求，我在安装Spynner时遇到问题（可能是因为它不支持Python 3.6？）

你会推荐什么？

Answer 1

我刚去用硒做过。 对于这个小项目，其他所有事情都太麻烦了。

刮取需要使用Python登录的Javascript呈现页面

问题描述

1 个解决方案

解决方案1
0 2017-11-06 01:01:04

刮取需要使用Python登录的Javascript呈现页面

问题描述

1 个解决方案

解决方案1 0 2017-11-06 01:01:04

解决方案1
0 2017-11-06 01:01:04