Scrapy XPath迭代（外殼工程）

Question

我正在嘗試使用scrapy從英國的companyhouse收集一些信息。 我通過外殼與網站建立了聯系，並通過他的命令

 scrapy shell https://beta.companieshouse.gov.uk/search?q=a

與

response.xpath('//*[@id="results"]').extract()

我設法得到了結果。

我試圖將其放入程序，以便將其導出到csv或json。 但是，我無法使其正常工作。

import scrapy


class QuotesSpider(scrapy.Spider):
name = "gov2"

def start_requests(self):
    start_urls = ['https://beta.companieshouse.gov.uk/search?q=a']

def parse(self, response):
    products = response.xpath('//*[@id="results"]').extract()
    print(products)

很簡單，但是嘗試了很多。 任何見識將不勝感激！

Answer 1

這些代碼行就是問題所在：

def start_requests(self):
    start_urls = ['https://beta.companieshouse.gov.uk/search?q=a']

start_requests方法應返回Request的可迭代； 您的返回None 。

默認的start_requests從start_urls指定的url創建此可迭代項，因此只需將其定義為類變量（在任何函數之外），並且不覆蓋start_requests就可以根據需要工作。

Answer 2

試着做：

import scrapy


class QuotesSpider(scrapy.Spider):

    name = "gov2"
    start_urls = ["https://beta.companieshouse.gov.uk/search?q=a"]

    def parse(self, response):
        products = response.xpath('//*[@id="results"]').extract()
        print(products)

Scrapy XPath迭代（外殼工程）

問題描述

2 個解決方案

解決方案1
2 已采納 2019-03-13 19:55:34

解決方案2
0 2019-03-13 20:08:40

Scrapy XPath迭代（外殼工程）

問題描述

2 個解決方案

解決方案1 2 已采納 2019-03-13 19:55:34

解決方案2 0 2019-03-13 20:08:40

解決方案1
2 已采納 2019-03-13 19:55:34

解決方案2
0 2019-03-13 20:08:40