用scrapy在csv文件中逐行寫一個元素

Question

我正在抓取此頁面：

http://www.mymcpl.org/cfapps/botb/movie.cfm

提取四個項目：書籍，作者，電影，電影年

我想將其保存在CSV文件中，其中每一行都包含一部電影的記錄。

這是我寫的蜘蛛：

class simple_spider(scrapy.Spider):
    name = 'movies_spider'
    allowed_domains = ['mymcpl.org']
    download_delay = 1


    start_urls = ['http://www.mymcpl.org/cfapps/botb/movie.cfm?browse={}'.format(letter) for letter in string.uppercase] # ['http://www.mymcpl.org/cfapps/botb/movie.cfm']


    def parse(self, response):
        xpaths = {'book':'//*[@id="main"]/tr[{}]/td[2]/text()[1]',
                  'author':'//*[@id="main"]/tr[{}]/td[2]/a/text()',
                  'movie':'//*[@id="main"]/tr[{}]/td[1]/text()[1]',
                  'movie_year':'//*[@id="main"]/tr[{}]/td[1]/a/text()'}

        data  = {key:[] for key in xpaths}
        for row in range(2,len(response.xpath('//*[@id="main"]/tr').extract()) + 1):
            for key in xpaths.keys():
                value = response.xpath(xpaths[key].format(row)).extract_first()
                data[key] = (value) 
        yield data.values()

運行蜘蛛：

scrapy runspider m_spider.py output.csv

我在這里遇到兩個問題：

1）CSV文件的每一行不僅包含當前記錄，而且包含所有先前的記錄，即使我沒有在字典中附加值

2）蜘蛛只會抓取start_urls的第一頁。

Answer 1

Scrapy已經內置了csv導出器。 您所需要做的就是屈服項，scrapy將這些項輸出到csv文件。

def parse(self, response):
    xpaths = {'book':'//*[@id="main"]/tr[{}]/td[2]/text()[1]',
              'author':'//*[@id="main"]/tr[{}]/td[2]/a/text()',
              'movie':'//*[@id="main"]/tr[{}]/td[1]/text()[1]',
              'movie_year':'//*[@id="main"]/tr[{}]/td[1]/a/text()'}
    return {key:[] for key in xpaths}

然后：

scrapy crawl myspider --output results.csv

*注意csv部分，scrapy也可以輸出到.json和.jl（json行）而不是csv，只需在參數中更改文件擴展名即可。

用scrapy在csv文件中逐行寫一個元素

問題描述

1 個解決方案

解決方案1
2 2016-08-08 06:42:10

用scrapy在csv文件中逐行寫一個元素

問題描述

1 個解決方案

解決方案1 2 2016-08-08 06:42:10

解決方案1
2 2016-08-08 06:42:10