[英]scraping website on web proxy using python
我正在研究使用duke庫Web代理可以訪問的數據庫。 我遇到的問題是,由於數據庫是通過代理服務器訪問的,因此無法像數據庫不需要代理身份驗證那樣直接刮取該數據庫。
我嘗試了幾件事:
我寫了一個腳本登錄到杜克網絡(https://shib.oit.duke.edu/idp/AuthnEngine')。
然后,我在登錄數據中進行硬編碼:
login_data = urllib.urlencode({'j_username' : 'userxx',
'j_password' : 'passwordxx',
'Submit' : 'Enter'
})
然后我登錄:
resp = opener.open('https://shib.oit.duke.edu/idp/AuthnEngine', login_data)
然后創建一個Cookie罐對象,以保存來自代理網站的Cookie。
然后我嘗試使用我的腳本訪問數據庫,但它仍然告訴我需要身份驗證。 我想知道如何解決代理服務器所需的身份驗證。
如果您有任何建議,請讓我知道。
謝謝你,簡
代理登錄不存儲cookie,而是使用Proxy-Authorization
標頭。 該標頭將與每個類似於Cookies
請求一起發送。 標頭具有與常規基本身份驗證相同的格式,盡管可能存在不同的格式( Digest
, NTLM
。我建議您檢查常規登錄的標頭,然后復制並粘貼發送的Proxy-Authorization
標頭。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.