[英]scraping website on web proxy using python
我正在研究使用duke库Web代理可以访问的数据库。 我遇到的问题是,由于数据库是通过代理服务器访问的,因此无法像数据库不需要代理身份验证那样直接刮取该数据库。
我尝试了几件事:
我写了一个脚本登录到杜克网络(https://shib.oit.duke.edu/idp/AuthnEngine')。
然后,我在登录数据中进行硬编码:
login_data = urllib.urlencode({'j_username' : 'userxx',
'j_password' : 'passwordxx',
'Submit' : 'Enter'
})
然后我登录:
resp = opener.open('https://shib.oit.duke.edu/idp/AuthnEngine', login_data)
然后创建一个Cookie罐对象,以保存来自代理网站的Cookie。
然后我尝试使用我的脚本访问数据库,但它仍然告诉我需要身份验证。 我想知道如何解决代理服务器所需的身份验证。
如果您有任何建议,请让我知道。
谢谢你,简
代理登录不存储cookie,而是使用Proxy-Authorization
标头。 该标头将与每个类似于Cookies
请求一起发送。 标头具有与常规基本身份验证相同的格式,尽管可能存在不同的格式( Digest
, NTLM
。我建议您检查常规登录的标头,然后复制并粘贴发送的Proxy-Authorization
标头。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.