繁体   English   中英

从服务器python快速下载xml文件

[英]fast download xml file from server python

我正在从 clean-mx 下载网络钓鱼/病毒站点的大型数据库

网络钓鱼数据库 = http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒库 = http://support.clean-mx.de/clean-mx/xmlviruses.php

现在的问题是,每个 xml 文件的大小约为 +30Mb,下载它们大约需要 1 分钟,我需要更快地下载它们......我使用urllib.urlretrieve下载它们。

我需要这些文件来构建包含这些数据库中的 url 的 xml 数据库,我试图阅读它们,希望它应该比使用urllib.urlopen下载它们更快,但它比下载它们更慢。

您是否有使用这些文件(下载或读取)以更快的性能构建我的数据库的想法?

注意:只需要使用这些文件,我已经编写了快速构建数据库的代码

我尝试在 OS X 和 Linux(在 VM 中运行)中通过 Firefox 下载病毒 XML,并使用出色的requests模块(我更喜欢urllib ),所有方法都需要很长时间才能下载 47M 文件 - 在事实上,一些进程冻结或崩溃。 我有一个 60 Mbit/s 的互联网连接,从不受限制的服务器下载一个类似大小的文件通常只需要 10-15 秒。 因此,我怀疑您的结果不会有太大改善,因为这似乎是服务器问题。 我建议联系网站的所有者,看看他们是否愿意与您一起诊断连接问题。

编辑

好吧,这很奇怪。 我重新启动了 Linux VM 并在终端中运行了以下命令:

import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)

下载在不到 15 秒内完成。 所以,我完全不确定发生了什么......

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM