簡體   English   中英

從服務器python快速下載xml文件

[英]fast download xml file from server python

我正在從 clean-mx 下載網絡釣魚/病毒站點的大型數據庫

網絡釣魚數據庫 = http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒庫 = http://support.clean-mx.de/clean-mx/xmlviruses.php

現在的問題是,每個 xml 文件的大小約為 +30Mb,下載它們大約需要 1 分鍾,我需要更快地下載它們......我使用urllib.urlretrieve下載它們。

我需要這些文件來構建包含這些數據庫中的 url 的 xml 數據庫,我試圖閱讀它們,希望它應該比使用urllib.urlopen下載它們更快,但它比下載它們更慢。

您是否有使用這些文件(下載或讀取)以更快的性能構建我的數據庫的想法?

注意:只需要使用這些文件,我已經編寫了快速構建數據庫的代碼

我嘗試在 OS X 和 Linux(在 VM 中運行)中通過 Firefox 下載病毒 XML,並使用出色的requests模塊(我更喜歡urllib ),所有方法都需要很長時間才能下載 47M 文件 - 在事實上,一些進程凍結或崩潰。 我有一個 60 Mbit/s 的互聯網連接,從不受限制的服務器下載一個類似大小的文件通常只需要 10-15 秒。 因此,我懷疑您的結果不會有太大改善,因為這似乎是服務器問題。 我建議聯系網站的所有者,看看他們是否願意與您一起診斷連接問題。

編輯

好吧,這很奇怪。 我重新啟動了 Linux VM 並在終端中運行了以下命令:

import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)

下載在不到 15 秒內完成。 所以,我完全不確定發生了什么......

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM