[英]Stormcrawler: Injecting new URL to crawl without restarting the topology
有什么方法可以在不从命令行停止拓扑并编辑正确的文件的情况下注入新的 URL 进行爬网? 我想用 Elasticsearch 作为索引器来做到这一点
这取决于您用作存储 URL 状态的后端。 如果 URL 存储在 Elasticsearch 中的状态索引中,则无需重新启动爬网拓扑。 您可以在本地模式下单独使用注入器拓扑将新 URL 注入状态索引。
这也适用于 SOLR 或 SQL 模块,但不适用于 MemorySpout + MemoryStatusUpdater,因为它存在于 JVM 中而不是其他任何地方。
你用哪个喷口?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.