繁体   English   中英

我的 Scrapy 蜘蛛无法从下一页提取数据

[英]My Scrapy spider can't extract data from the next page

所以我被要求从网站上抓取所有工作细节,但是我的蜘蛛成功获取到下一页的链接,但只从第一个页面中提取数据
这是我的蜘蛛:

name = 'jobs'
allowed_domains = ['www.tanitjobs.com/jobs']
start_urls = ['https://www.tanitjobs.com/jobs']

def parse(self, response):
    pass

    all_jobs = response.css(".listing-item__jobs")

    for job in all_jobs:
        item = {
            'jobname' : job.css("article.listing-item div.listing-item__title a::text").getall(),
            "companyname" : job.css(".listing-item__info--item-company::text").extract(),
            "city" : job.css(".listing-item__info--item-location::text").extract() ,
            }

        yield item

    next_page = response.css(".pad_right_small a ::attr(href)").extract_first()
    if next_page:
       next_page = response.urljoin(next_page)
       yield scrapy.Request(url=next_page, callback=self.parse)

这是我运行蜘蛛后得到的结果

如果有人知道似乎是什么问题,我真的需要你的帮助,并提前感谢。

allowed_domains = ['www.tanitjobs.com/jobs']

由于它的变量名是一个死的赠品,一个应该只将允许的放在该列表中,而你所拥有的是其中的部分URL,这会导致异地过滤器拒绝请求

除非您有特殊需要,否则我建议仅在该值中列出基

allowed_domains = ['tanitjobs.com']

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM