無法弄清楚為什么我的 Scrapy 腳本不起作用

Question

import scrapy

class TestSpider(scrapy.Spider):
    name = 'test'
    start_urls = ['https://go.twitch.tv/directory']
def parse(self, response):
    for title in response.css('body'):
        yield {'title': title.css('h3.tw-box-art-card__title::text').extract()}

    for next_page in response.css('a::attr(href)'):
        yield response.follow(next_page, self.parse)

它只是爬行和刮擦https://go.twitch.tv/directory但不發布任何標題。

我是 Python 新手，所以問題可能很明顯，但我無法弄清楚。

Answer 1

正如@Shahin 提到的，頁面是動態生成的，如果沒有 selenium 或 splash 之類的東西，您將無法解析它。 讀這個。

還有另一種方法：您可以在生成請求的方式中進行一些搜索，這將為您提供所需的數據。

例如，當頁面加載或進入底部時，向https://gql.twitch.tv/gql請求一些數據，請看下圖：

這是請求將返回帶有目錄游戲描述的 json： 所以，我認為您只需要找出請求數據如何構建和發出請求，而不是twitch.tv/directory ，而是gql.twitch.tv/gql並解析 json 格式的響應。

如何在此處使用正文發出請求（有正文參數）

無法弄清楚為什么我的 Scrapy 腳本不起作用

問題描述

1 個解決方案

解決方案1
1 已采納 2017-11-01 08:26:47

無法弄清楚為什么我的 Scrapy 腳本不起作用

問題描述

1 個解決方案

解決方案1 1 已采納 2017-11-01 08:26:47

解決方案1
1 已采納 2017-11-01 08:26:47