Scrapy：如何防止帶有條件項目值的收益請求？

Question

我正在解析一個 url 列表，我想避免在某些值的條件下保存一些 url 結果項。 我的代碼是這樣的：

start_urls = [www.rootpage.com]
def parse(self,response):
    item = CreatedItem()
    url_list = response.xpath('somepath').extract()
    for url in url_list:
        request =  scrapy.Request(item['url'],callback=self.parse_article)
        request.meta['item'] = item
        yield request

 def parse_article(self,response):
     item = response.meta['item']
     item['parameterA'] = response.xpath('somepath').extract()
     yield item

現在我希望在 item['parameterA'] 遵循條件的情況下，不需要“yield request”（這樣就不會保存此 url 的內容）。 我嘗試添加一個條件，如：

    if item['parameterA'] == 0:
       continue
    else:
       yield item

但正如預期的那樣，它不起作用，因為即使在執行請求之前，scrapy 也會繼續循環。

Answer 1

據我了解，您應該在parse_article方法中做出決定：

def parse_article(self,response):
    item = response.meta['item']
    item['parameterA'] = response.xpath('somepath').extract_first()

    if item['parameterA'] != "0":
        yield item

請注意extract_first()的使用和0周圍的引號。

Scrapy：如何防止帶有條件項目值的收益請求？

問題描述

1 個解決方案

解決方案1
1 已采納 2016-05-11 15:39:49

Scrapy：如何防止帶有條​​件項目值的收益請求？

問題描述

1 個解決方案

解決方案1 1 已采納 2016-05-11 15:39:49

Scrapy：如何防止帶有條件項目值的收益請求？

解決方案1
1 已采納 2016-05-11 15:39:49