繁体   English   中英

如何在scrapy python中使用蜘蛛的名称动态创建csv文件

[英]How to create a csv file dynamically with name of the spider in scrapy python

嗨,我正在抓取一些HTML页面,

我已经编写了Spider,并且已经从spider.py文件中的页面中获取了所需的数据,并且在我的pipeline.py文件中,我想将所有数据写入到使用Spider名称及以下名称动态创建的csv file中是我的pipeline.py代码

pipeline.py:

from scrapy import log
from datetime import datetime


class examplepipeline(object):

    def __init__(self):
        dispatcher.connect(self.spider_opened, signal=signals.spider_opened)
        dispatcher.connect(self.spider_closed, signal=signals.spider_closed)

    def spider_opened(self, spider):
        log.msg("opened spider  %s at time %s" % (spider.name,datetime.now().strftime('%H-%M-%S')))
        self.exampleCsv = csv.writer(open("%s(%s).csv"% (spider.name,datetime.now().strftime("%d/%m/%Y,%H-%M-%S")), "wb"),
                   delimiter=',', quoting=csv.QUOTE_MINIMAL)
        self.exampleCsv.writerow(['Listing Name', 'Address','Pincode','Phone','Website'])           

    def process_item(self, item, spider):
        log.msg("Processsing item " + item['title'], level=log.DEBUG)
        self.exampleCsv.writerow([item['listing_name'].encode('utf-8'),
                                    item['address_1'].encode('utf-8'),
                                    [i.encode('utf-8') for i in item['pincode']],
                                    item['phone'].encode('utf-8'),
                                    [i.encode('utf-8') for i in item['web_site']]
                                    ])
        return item 


    def spider_closed(self, spider):
        log.msg("closed spider %s at %s" % (spider.name,datetime.now().strftime('%H-%M-%S')))

结果:

--- <exception caught here> ---
  File "/usr/lib64/python2.7/site-packages/twisted/internet/defer.py", line 133, in maybeDeferred
    result = f(*args, **kw)
  File "/usr/lib/python2.7/site-packages/Scrapy-0.14.3-py2.7.egg/scrapy/xlib/pydispatch/robustapply.py", line 47, in robustApply
    return receiver(*arguments, **named)
  File "/home/local/user/example/example/pipelines.py", line 19, in spider_opened
    self.examplecsv = csv.writer(open("%s(%s).csv"% (spider.name,datetime.now().strftime("%d/%m/%Y,%H-%M-%S")), "wb"),
exceptions.IOError: [Errno 2] No such file or directory: 'example(27/07/2012,10-30-40).csv'

这里实际上蜘蛛的名字就是example

我不明白上面的代码有什么问题,它应该使用蜘蛛名称动态创建csv文件,但是显示上面提到的错误,任何人都可以让我知道那里发生了什么.........

问题在于文件名中的正斜杠(目录分隔符)。 这个不允许。 尝试在日期中使用其他字符。

此处的更多信息http://www.linuxquestions.org/questions/linux-software-2/forward-slash-in-filenames-665010/

此链接有助于获取所需的格式。 如何在Python中以常规格式打印日期?

>>> import datetime
>>> datetime.date.today()
datetime.date(2012, 7, 27)
>>> str(datetime.date.today())
'2012-07-27'

在您的代码中使用它

open("%s(%s).csv"% (spider.name,datetime.now().strftime("%d-%m-%Y:%H-%M-%S"))

正如Kamal指出的那样,直接的问题是您创建的文件名中存在正斜杠。 Kamal的解决方案有效,但是我不会通过使用Kamal建议的方法来解决此问题,但需要:

open("%s(%s).csv"% (spider.name, datetime.now().replace(microsecond=0).isoformat())

这里最主要的是使用.isoformat()将其设置为ISO 8601格式:

YYYY-MM-DDTHH:MM:SS.mmmmmm

这样做的好处是可以按时间顺序递增进行琐碎的排序。 .replace(microsecond=0)调用用于删除微秒信息,在这种情况下, .isoformat()的输出中将不包含结尾的.mmmmm 如果要保留微秒信息,可以将呼叫挂断到.replace() 当我放微秒时,我将编写其余的应用程序,以防止两次调用创建同一文件。

另外,您可以删除自定义__init__ ,并将spider_opened重命名为open_spider ,并将spider_closed重命名为close_spider Scrapy会自动调用open_spider当蜘蛛被打开, close_spider当蜘蛛被关闭。 您不必迷上信号。 文档中提到的这些方法最早可追溯到Scrapy 0.7。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM