繁体   English   中英

从脚本设置Scrapy start_urls

[英]Setting Scrapy start_urls from a Script

我有一个工作的scrapy蜘蛛,我可以通过一个单独的脚本运行它,按照这里例子 我还为我的脚本创建了一个wxPython GUI,它只包含一个多行TextCtrl,供用户输入要抓取的URL列表和要提交的按钮。 目前start_urls被硬编码到我的蜘蛛中 - 如何将我在TextCtrl中输入的URL传递给我的蜘蛛中的start_urls数组? 先谢谢您的帮助!

alecxe答案对我不起作用。 我的解决方案适用于Scrapy == 1.0.3:

from scrapy.crawler import CrawlerProcess
from tutorial.spiders.some_spider import SomeSpider

process = CrawlerProcess()

process.crawl(SomeSpider, start_urls=["http://www.example.com"])
process.start()

它可能在将来帮助某人。

只需在Spider实例上设置start_urls

spider = FollowAllSpider(domain=domain)
spider.start_urls = ['http://google.com']

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM