簡體   English   中英

使用python在Web代理上抓取網站

[英]scraping website on web proxy using python

我正在研究使用duke庫Web代理可以訪問的數據庫。 我遇到的問題是,由於數據庫是通過代理服務器訪問的,因此無法像數據庫不需要代理身份驗證那樣直接刮取該數據庫。

我嘗試了幾件事:

我寫了一個腳本登錄到杜克網絡(https://shib.oit.duke.edu/idp/AuthnEngine')。

然后,我在登錄數據中進行硬編碼:

login_data = urllib.urlencode({'j_username' : 'userxx',
                           'j_password' : 'passwordxx',
                           'Submit' : 'Enter'
                           })

然后我登錄:

resp = opener.open('https://shib.oit.duke.edu/idp/AuthnEngine', login_data)

然后創建一個Cookie罐對象,以保存來自代理網站的Cookie。

然后我嘗試使用我的腳本訪問數據庫,但它仍然告訴我需要身份驗證。 我想知道如何解決代理服務器所需的身份驗證。

如果您有任何建議,請讓我知道。

謝謝你,簡

代理登錄不存儲cookie,而是使用Proxy-Authorization標頭。 該標頭將與每個類似於Cookies請求一起發送。 標頭具有與常規基本身份驗證相同的格式,盡管可能存在不同的格式( DigestNTLM 。我建議您檢查常規登錄的標頭,然后復制並粘貼發送的Proxy-Authorization標頭。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM