繁体   English   中英

Scrapy XPath迭代(外壳工程)

[英]Scrapy xpath iterate (shell works)

我正在尝试使用scrapy从英国的companyhouse收集一些信息。 我通过外壳与网站建立了联系,并通过他的命令

 scrapy shell https://beta.companieshouse.gov.uk/search?q=a

response.xpath('//*[@id="results"]').extract()

我设法得到了结果。

我试图将其放入程序,以便将其导出到csv或json。 但是,我无法使其正常工作。

import scrapy


class QuotesSpider(scrapy.Spider):
name = "gov2"

def start_requests(self):
    start_urls = ['https://beta.companieshouse.gov.uk/search?q=a']

def parse(self, response):
    products = response.xpath('//*[@id="results"]').extract()
    print(products)

很简单,但是尝试了很多。 任何见识将不胜感激!

这些代码行就是问题所在:

def start_requests(self):
    start_urls = ['https://beta.companieshouse.gov.uk/search?q=a']

start_requests方法应返回Request的可迭代; 您的返回None

默认的start_requestsstart_urls指定的url创建此可迭代项,因此只需将其定义为类变量(在任何函数之外),并且不覆盖start_requests就可以根据需要工作。

试着做:

import scrapy


class QuotesSpider(scrapy.Spider):

    name = "gov2"
    start_urls = ["https://beta.companieshouse.gov.uk/search?q=a"]

    def parse(self, response):
        products = response.xpath('//*[@id="results"]').extract()
        print(products)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM