[英]What's the best way to disable image download in scrapy?
默认情况下不禁用它。
我写了一个蜘蛛,它每小时消耗近 2 GB 的数据。 现在我想保存我的数据消耗,图像对我没有用,所以要确保它们不会被获取。
鉴于这是一个 P0 场景,它应该是settings.py
中的一个简单标志,但令人惊讶的是,我在文档中找不到任何标志。 我发现了很多关于ImagesPipeline
的细节,启用了这些管道、它们的存储等,但对于对图像不感兴趣的人没有标记。 如果我遗漏了什么,请告诉我。
Scrapy 不会下载图像,除非您明确告诉它这样做。
您可以在运行时日志中查看 Scrapy 下载的 URL。 如果图像 URL 未出现在日志中,则即使下载了包含图像的网页,也不会下载该图像。
当您在 web 浏览器中打开下载的页面时,web 浏览器会即时下载图像。 它们不是来自下载的网页,它们不是(通常)嵌入网页中,网页指示它们在 Internet 中的位置,web 浏览器下载它们以显示它们,但 Scrapy 没有。
唯一的例外是图像实际上嵌入在 HTML 代码中,如 base64。 这是不常见的,可能不是你的情况。 发生这种情况时,您无法阻止他们的下载,您无法下载不包括部分内容的网页。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.