[英]Scrapy parse to pipeline
例如,我想抓取三个相似的网址:
https://example.com/book1
https://example.com/book2
https://example.com/book3
我想要的是在pipeline.py中,我创建了三个名为book1,book2和book3的文件,并分别正确地写入了三本书的数据 。在spider.py中,我知道了三本书的名称,即文件名,但不在pipeline.py中。它们具有相同的结构,因此我决定如下代码:
class Book_Spider(scrapy.Spider):
def start_requests(self):
for url in urls:
yield scrapy.Request(url, self.parse)
def parse(self, response):
# item handling
yield item
现在,我该怎么办?
史密斯,如果您想在pipeline.py中知道书名。 有两种选择,要么为book_file_name创建一个item字段,然后根据需要填充它。 或者您可以从也是项目字段的url字段中提取它,并可以在pipline.py中进行访问
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.