繁体   English   中英

粗糙解析到管道

[英]Scrapy parse to pipeline

例如,我想抓取三个相似的网址:

https://example.com/book1
https://example.com/book2
https://example.com/book3

我想要的是在pipeline.py中,我创建了三个名为book1,book2和book3的文件,并分别正确地写入了三本书的数据 。在spider.py中,我知道了三本书的名称,即文件名,但不在pipeline.py中。它们具有相同的结构,因此我决定如下代码:

class Book_Spider(scrapy.Spider):
    def start_requests(self):
        for url in urls:
            yield scrapy.Request(url, self.parse)
    def parse(self, response):
        # item handling
        yield item

现在,我该怎么办?

史密斯,如果您想在pipeline.py中知道书名。 有两种选择,要么为book_file_name创建一个item字段,然后根据需要填充它。 或者您可以从也是项目字段的url字段中提取它,并可以在pipline.py中进行访问

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM