新手Q关于Scrapy pipeline.py

Question

我正在研究Scrapy教程。 为了测试这个过程，我用这些文件创建了一个新项目：

请参阅我在Scrapy组中的帖子获取脚本链接，我不能在这里发布超过1个链接。

蜘蛛运行良好并在标题标签之间擦除文本并将其放入FirmItem

[whitecase.com] INFO: Passed FirmItem(title=[u'White &amp; Case LLP - Lawyers - Rachel B. Wagner '])

但我陷入了管道流程。 我想将此FirmItem添加到csv文件中，以便我可以将其添加到数据库中。

我是python的新手，我正在学习。 如果有人给我一个关于如何使pipelines.py工作的线索，以便将已删除的数据放入items.csv，我将不胜感激。

谢谢。

Answer 1

我认为它们可以在Scrapy教程中解决您的具体问题。

它建议，正如其他人在这里使用CSV模块一样。 将以下内容放在pipelines.py文件中。

import csv

class CsvWriterPipeline(object):

    def __init__(self):
        self.csvwriter = csv.writer(open('items.csv', 'wb'))

    def process_item(self, domain, item):
        self.csvwriter.writerow([item['title'][0], item['link'][0], item['desc'][0]])
        return item

不要忘记通过将管道添加到settings.py中的ITEM_PIPELINES设置来启用管道，如下所示：

ITEM_PIPELINES = ['dmoz.pipelines.CsvWriterPipeline']

根据项目的具体情况进行调整。

Answer 2

使用内置CSV Feed导出（在v0.10中可用）和CsvItemExporter 。

Answer 3

Python有一个用于读/写CSV文件的模块，这比自己编写输出更安全（并使所有引用/转义正确...）

import csv
csvfile = csv.writer(open('items.csv', 'w'))
csvfile.writerow([ firmitem.title, firmitem.url ])
csvfile.close()

Answer 4

打开文件并写入。

f = open('my.cvs','w')
f.write('h1\th2\th3\n')
f.write(my_class.v1+'\t'+my_class.v2+'\t'+my_class.v3+'\n')
f.close()

或者在stdout上输出结果，然后将stdout重定向到文件./my_script.py >> res.txt

新手Q关于Scrapy pipeline.py

问题描述

4 个解决方案

解决方案1
9 已采纳 2009-11-21 06:24:05

解决方案2
1 2012-08-27 11:26:06

解决方案3
0 2009-11-20 15:27:55

解决方案4
-1 2009-11-20 15:25:54

新手Q关于Scrapy pipeline.py

问题描述

4 个解决方案

解决方案1 9 已采纳 2009-11-21 06:24:05

解决方案2 1 2012-08-27 11:26:06

解决方案3 0 2009-11-20 15:27:55

解决方案4 -1 2009-11-20 15:25:54

解决方案1
9 已采纳 2009-11-21 06:24:05

解决方案2
1 2012-08-27 11:26:06

解决方案3
0 2009-11-20 15:27:55

解决方案4
-1 2009-11-20 15:25:54