簡體   English   中英

一只一只地跑不止一只蜘蛛

[英]Running more than one spiders one by one

我正在使用 Scrapy 框架讓蜘蛛爬行一些網頁。 基本上,我想要的是抓取網頁並將它們保存到數據庫中。 我每個網頁有一只蜘蛛。 但是我無法立即運行這些蜘蛛,以至於在另一只蜘蛛完成爬行之后,蜘蛛開始爬行。 如何實現? scrapyd 是解決方案嗎?

scrapyd 確實是一個好方法,可以使用max_procmax_proc_per_cpu配置來限制並行 spdiers 的數量,然后您將使用 scrapyd rest api調度蜘蛛,例如:

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM