满足条件时关闭一个抓痒的蜘蛛，然后返回输出对象

Question

我已经做了蜘蛛获取某个页面的评论是这样这里使用scrapy。 我只想在特定日期（在这种情况下为2016年7月2日）之前进行商品评论。 我想在审查日期早于给定日期时关闭蜘蛛，然后返回项目列表。 Spider运行良好，但是我的问题是，如果满足条件，我将无法关闭Spider。如果我引发异常，Spider将关闭而不返回任何内容。 请提出手动关闭蜘蛛网的最佳方法。 这是我的代码：

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy import Selector
from tars.items import FlipkartProductReviewsItem
import re as r
import unicodedata
from datetime import datetime 

class Freviewspider(CrawlSpider):
    name = "frs"
    allowed_domains = ["flipkart.com"]
    def __init__(self, *args, **kwargs):
        super(Freviewspider, self).__init__(*args, **kwargs)
        self.start_urls = [kwargs.get('start_url')]


    rules = (
        Rule(LinkExtractor(allow=(), restrict_xpaths=('//a[@class="nav_bar_next_prev"]')), callback="parse_start_url", follow= True),
)


    def parse_start_url(self, response):

        hxs = Selector(response)
        titles = hxs.xpath('//div[@class="fclear fk-review fk-position-relative line "]')

        items = []

        for i in titles:

            item = FlipkartProductReviewsItem()

            #x-paths:

            title_xpath = "div[2]/div[1]/strong/text()"
            review_xpath = "div[2]/p/span/text()"
            date_xpath = "div[1]/div[3]/text()"



            #field-values-extraction:

            item["date"] = (''.join(i.xpath(date_xpath).extract())).replace('\n ', '')
            item["title"] = (''.join(i.xpath(title_xpath).extract())).replace('\n ', '')

            review_list = i.xpath(review_xpath).extract()
            temp_list = []
            for element in review_list:
                temp_list.append(element.replace('\n ', '').replace('\n', ''))

            item["review"] = ' '.join(temp_list)

            xxx = datetime.strptime(item["date"], '%d %b %Y ')
            comp_date = datetime.strptime('02 Jul 2016 ', '%d %b %Y ')
            if xxx>comp_date:
                items.append(item)
            else:
                break

        return(items)

Answer 1

要强制蜘蛛关闭，可以使用scrapy docs中此处描述的raise CloseSpider异常。 只要确保在退货前退还/交出物品即可。

满足条件时关闭一个抓痒的蜘蛛，然后返回输出对象

问题描述

1 个解决方案

解决方案1
2 2016-07-12 14:28:40

满足条件时关闭一个抓痒的蜘蛛，然后返回输出对象

问题描述

1 个解决方案

解决方案1 2 2016-07-12 14:28:40

解决方案1
2 2016-07-12 14:28:40