繁体   English   中英

使用python从网站抓取数据

[英]Crawl data from a website using python

我想从网站上抓取一些数据。 要手动访问目标数据,我需要登录,然后单击一些按钮以最终获得目标html页面。 目前,我正在使用Python request库来模拟此过程。 我这样做是这样的:

ss = requests.session()
#log in
resp = ss.post(url, data = (('username', 'xxx'), ('password', 'xxx')))
#then send requests to the target url
result = ss.get(taraget_url)

但是,我发现最终请求没有返回我想要的东西。

所以我改变了方法。 我下载了所有网络流量,并查看了最后一个请求的标头和cookie。 我发现这里有一些内容在每次登录会话中都是不同的,例如sessionid和其他一些变量。 因此,我回溯了响应中何时返回这些变量,然后通过发送相应的请求再次获取值。 之后,我构造了正确的标头和cookie,然后发送如下请求:

resp = ss.get(target_url, headers = myheader, cookies = mycookie)

但是,它并没有给我任何回报。 有人可以帮忙吗?

一段时间前,我在同一条船上,最终我从尝试获取工作请求转为使用Selenium,这使生活变得更加轻松。 pip install selenium )。 然后,您可以登录网站,然后导航到所需的网站,如下所示:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

website_with_logins = "https://website.com"
website_to_access_after_login = "https://website.com/page"

driver.get( str(website_with_logins) )
username = driver.find_element_by_name("username")
username.send_keys("your_username")
password = driver.find_element_by_name("password")
password.send_keys("your_password")
password.send_keys(Keys.RETURN)
driver.get( str(website_to_access_after_login) )

加载website_to_access_after_login (您会看到它出现),您可以获取HTML并使用

html = driver.page_source

希望这可以帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM