繁体   English   中英

使用Python分发Web搜寻器

[英]Distributing a web crawler in Python

我是一名Python学习者,我真的很喜欢这篇文章:

A. Jesse Jiryu Davis和Guido van Rossum撰写的“带有异步协同程序的网络爬虫”

我不明白的一件事是,如何在几台计算机的群集上扩展该程序。 那是asyncio库的一部分吗?或者您对分发的内容有点“自己”?

一种可能性是使用外部任务队列。 有很多选择, 芹菜是一种受欢迎的 基本思想是将作业推送到队列中,任何数量的工作进程都可以使用它们。 对于网络爬虫而言,工作就像抓取URL一样简单。 工作者将从队列中获取URL,对其进行检索,解析,然后将所有新URL作为新作业添加到队列中。

该系统的优点是工作人员只是进程,并且可以通过网络与队列进行通信,因此您可以根据需要在任意数量的计算机上拥有尽可能多的工作人员。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM