如何從main.py腳本訪問Spider數據？

Question

假設我已經使用此文件夾結構啟動了一個Scrapy項目：

.root
├── main.py
├── scrapy.cfg
├── app
│  ├── items.py
│  ├── middlewares.py
│  ├── pipelines.py
│  ├── settings.py
│  └── spiders
│     ├── my_spider.py

因此，在main.py文件中，我有：

#!/usr/bin/env python
import scrapy
from app.spiders.my_spider import MySpider
from scrapy.crawler import CrawlerProcess
from scrapy.settings import Settings
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())
process.crawl(VultrSpider())
process.start()

當我在終端上運行./main.py時，它工作正常，但是我有幾個問題：

如何打印項目的值而不是所有Scrapy輸出？
如何訪問我的數據從main.py ，假設我需要將數據導入到數據幀大熊貓在main.py ？

Answer 1

您可以將管道用於https://docs.scrapy.org/en/latest/topics/item-pipeline.html

只需創建一個管道並將您的輸出或處理插入到process_item

至於“數據框”部分，您可以在open_spider創建/導入一個數據open_spider並將其分配給自變量，以便在Spider或process_item

使用管道比將代碼放到其他地方更好，因為管道就像緩沖區一樣工作，假設您以100項/秒的速度抓取項目，以10項/秒的速度處理項目，那么使用管道不會使抓取工作變慢，寧願將您的報廢物品在管道中排隊。

如何從main.py腳本訪問Spider數據？

問題描述

1 個解決方案

解決方案1
2 2019-05-12 03:48:57

如何從main.py腳本訪問Spider數據？

問題描述

1 個解決方案

解決方案1 2 2019-05-12 03:48:57

解決方案1
2 2019-05-12 03:48:57