繁体   English   中英

在Scrapy中如何检查导出的文件是否已经存在?

[英]In Scrapy how to check whether exported file already exists?

我写一些Scrapy蜘蛛。 它将数据导出到我通过命令行传递的名称文件: E:\\Anaconda3\\envs\\Blog2Doc\\Lib\\site-packages\\scrapy\\cmdline.py runspider blog2doc_scrapy\\spiders\\blog_spider.py -o ..\\data\\out.html 如果该文件已经存在,则只需将内容附加到现有文件中即可。 如何检查输出文件是否已经存在以及是否存在-删除它。 为了导出到文件,我编写Blog2DocExporter(BaseItemExporter)类。 它不是打开的输出文件,在构造函数中它是已经打开的文件对象。 因此,在此导出器类中,我无法检查是否已存在导出文件。

严重覆盖输出文件是一个已知的未解决问题。 参见例如:

我自己提出了一个修复方法,以使用后缀递增来重命名文件。 但是实现不是向后兼容的。 尽管如此,您可能仍会发现此有用: https : //github.com/scrapy/scrapy/pull/2093

它更改了FileFeedStorage ,但是您可以实现类似的功能并查看其他答案以使用此类自定义提要存储类。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM