從服務器python快速下載xml文件

Question

我正在從 clean-mx 下載網絡釣魚/病毒站點的大型數據庫

網絡釣魚數據庫 = http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒庫 = http://support.clean-mx.de/clean-mx/xmlviruses.php

現在的問題是，每個 xml 文件的大小約為 +30Mb，下載它們大約需要 1 分鍾，我需要更快地下載它們......我使用urllib.urlretrieve下載它們。

我需要這些文件來構建包含這些數據庫中的 url 的 xml 數據庫，我試圖閱讀它們，希望它應該比使用urllib.urlopen下載它們更快，但它比下載它們更慢。

您是否有使用這些文件（下載或讀取）以更快的性能構建我的數據庫的想法？

注意：只需要使用這些文件，我已經編寫了快速構建數據庫的代碼

Answer 1

我嘗試在 OS X 和 Linux（在 VM 中運行）中通過 Firefox 下載病毒 XML，並使用出色的requests模塊（我更喜歡urllib ），所有方法都需要很長時間才能下載 47M 文件 - 在事實上，一些進程凍結或崩潰。 我有一個 60 Mbit/s 的互聯網連接，從不受限制的服務器下載一個類似大小的文件通常只需要 10-15 秒。 因此，我懷疑您的結果不會有太大改善，因為這似乎是服務器問題。 我建議聯系網站的所有者，看看他們是否願意與您一起診斷連接問題。

編輯

好吧，這很奇怪。 我重新啟動了 Linux VM 並在終端中運行了以下命令：

import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)

下載在不到 15 秒內完成。 所以，我完全不確定發生了什么......

從服務器python快速下載xml文件

問題描述

1 個解決方案

解決方案1
1 已采納 2016-03-25 13:50:38

從服務器python快速下載xml文件

問題描述

1 個解決方案

解決方案1 1 已采納 2016-03-25 13:50:38

解決方案1
1 已采納 2016-03-25 13:50:38