繁体   English   中英

Scrapy:如何防止带有条​​件项目值的收益请求?

[英]Scrapy: How to do I prevent a yield request with a conditional item value?

我正在解析一个 url 列表,我想避免在某些值的条件下保存一些 url 结果项。 我的代码是这样的:

start_urls = [www.rootpage.com]
def parse(self,response):
    item = CreatedItem()
    url_list = response.xpath('somepath').extract()
    for url in url_list:
        request =  scrapy.Request(item['url'],callback=self.parse_article)
        request.meta['item'] = item
        yield request

 def parse_article(self,response):
     item = response.meta['item']
     item['parameterA'] = response.xpath('somepath').extract()
     yield item

现在我希望在 item['parameterA'] 遵循条件的情况下,不需要“yield request”(这样就不会保存此 url 的内容)。 我尝试添加一个条件,如:

    if item['parameterA'] == 0:
       continue
    else:
       yield item

但正如预期的那样,它不起作用,因为即使在执行请求之前,scrapy 也会继续循环。

据我了解,您应该在parse_article方法中做出决定:

def parse_article(self,response):
    item = response.meta['item']
    item['parameterA'] = response.xpath('somepath').extract_first()

    if item['parameterA'] != "0":
        yield item

请注意extract_first()的使用和0周围的引号。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM