使用python在Web代理上抓取網站

Question

我正在研究使用duke庫Web代理可以訪問的數據庫。 我遇到的問題是，由於數據庫是通過代理服務器訪問的，因此無法像數據庫不需要代理身份驗證那樣直接刮取該數據庫。

我嘗試了幾件事：

我寫了一個腳本登錄到杜克網絡（https://shib.oit.duke.edu/idp/AuthnEngine'）。

然后，我在登錄數據中進行硬編碼：

login_data = urllib.urlencode({'j_username' : 'userxx',
                           'j_password' : 'passwordxx',
                           'Submit' : 'Enter'
                           })

然后我登錄：

resp = opener.open('https://shib.oit.duke.edu/idp/AuthnEngine', login_data)

然后創建一個Cookie罐對象，以保存來自代理網站的Cookie。

然后我嘗試使用我的腳本訪問數據庫，但它仍然告訴我需要身份驗證。 我想知道如何解決代理服務器所需的身份驗證。

如果您有任何建議，請讓我知道。

謝謝你，簡

Answer 1

代理登錄不存儲cookie，而是使用Proxy-Authorization標頭。 該標頭將與每個類似於Cookies請求一起發送。 標頭具有與常規基本身份驗證相同的格式，盡管可能存在不同的格式（ Digest ， NTLM 。我建議您檢查常規登錄的標頭，然后復制並粘貼發送的Proxy-Authorization標頭。

使用python在Web代理上抓取網站

問題描述

1 個解決方案

解決方案1
0 2012-08-01 17:18:56

使用python在Web代理上抓取網站

問題描述

1 個解決方案

解決方案1 0 2012-08-01 17:18:56

解決方案1
0 2012-08-01 17:18:56