繁体 English 中英

粗糙解析到管道

[英]Scrapy parse to pipeline

原文 2016-06-09 08:13:10 8 1 python/ scrapy

例如，我想抓取三个相似的网址：

https://example.com/book1
https://example.com/book2
https://example.com/book3

我想要的是在pipeline.py中，我创建了三个名为book1，book2和book3的文件，并分别正确地写入了三本书的数据 。在spider.py中，我知道了三本书的名称，即文件名，但不在pipeline.py中。它们具有相同的结构，因此我决定如下代码：

class Book_Spider(scrapy.Spider):
    def start_requests(self):
        for url in urls:
            yield scrapy.Request(url, self.parse)
    def parse(self, response):
        # item handling
        yield item

现在，我该怎么办？

1 个解决方案

史密斯，如果您想在pipeline.py中知道书名。 有两种选择，要么为book_file_name创建一个item字段，然后根据需要填充它。 或者您可以从也是项目字段的url字段中提取它，并可以在pipline.py中进行访问

Scrapy Pipeline to Parse

[英]Scrapy Pipeline to Parse

非阻塞Scrapy管道到数据库

[英]Nonblocking Scrapy pipeline to database

Scrapy Regex自定义管道

[英]Scrapy Regex Custom Pipeline

Scrapy MySQL管道错误

[英]Scrapy mysql pipeline error

Scrapy Images管道上的IOError

[英]IOError on Scrapy Images Pipeline

Scrapy管道无法启动

[英]Scrapy Pipeline not starting

重复检查重复管道

[英]Scrapy check for duplicates pipeline

过滤刮擦管道中的物料

[英]filtering item in scrapy pipeline

项目管道无法正常运行

[英]item pipeline not working in scrapy

Scrapy，在管道之前等待

[英]Scrapy, await before pipeline

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Scrapy Pipeline to Parse 非阻塞Scrapy管道到数据库 Scrapy Regex自定义管道 Scrapy MySQL管道错误 Scrapy Images管道上的IOError Scrapy管道无法启动重复检查重复管道过滤刮擦管道中的物料项目管道无法正常运行 Scrapy，在管道之前等待

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM