Scrapy在parse中沒有yield request后直接停止

Question

我正在嘗試制作一個通過一定數量的起始 url 的蜘蛛，如果結果頁面是正確的，我會產生另一個請求。 問題是，如果我嘗試不產生第二個請求，蜘蛛將直接停止。 如果我 yield 第二個請求沒有問題。

這是相關代碼：

def start_requests(self):
        urls = ['https://www.hltv.org' + player for player in self.hashPlayers]
        print(len(urls))
        for url in urls:
            return [scrapy.Request(url=url, callback=self.parse)]

    def parse(self, response):
        result = response.xpath("//div[@class = 'playerTeam']//a/@href").get()
        if result is None:
            result = response.xpath("//span[contains(concat(' ',normalize-space(@class),' '),' profile-player-stat-value bold ')]//a/@href").get()

        if result is not None:
            yield scrapy.Request(
                url = "https://www.hltv.org" + result,
                callback = self.parseTeam
            )

所以我想要一種方法讓蜘蛛在我調用解析 function 之后繼續並且不產生請求。

Answer 1

def start_requests(self):
    urls = ['https://www.hltv.org' + player for player in self.hashPlayers]
    print(len(urls))
    for url in urls:
        return [scrapy.Request(url=url, callback=self.parse)]

如果您使用return ， function 將終止，循環將不會迭代到下一個值，並且單個請求將發送到 Scrapy 引擎。 用yield替換它，這樣它就返回一個生成器。

Scrapy在parse中沒有yield request后直接停止

問題描述

1 個解決方案

解決方案1
1 2020-09-20 20:04:02

Scrapy在parse中沒有yield request后直接停止

問題描述

1 個解決方案

解決方案1 1 2020-09-20 20:04:02

解決方案1
1 2020-09-20 20:04:02