[英]Mapping data into Elasticsearch from Nutch 1.x
我一直在与Nutch 1.10一起进行一些小型Web爬网,并使用Elasticsearch 1.4.1编制爬网数据的索引-看来,优化索引映射的唯一方法是首先进行爬网,回顾一下ES自己进行的映射然后使用映射API进行相应的更改(如有必要)。
有谁知道一种更有效的解决方案来优化ES索引内的Web爬网映射?
更新:甚至有可能从Nutch Web爬网更新ES映射吗?
这里有两件事要考虑:
关于索引数据,您使用的索引插件会对此产生影响。 例如,基本索引将为每个doc添加内容 , 主机 , URL 等 。 您可以查看插件的文档,也可以简单地查看输出是什么(就像您所做的一样)。
了解索引数据以及如何在es群集中使用它们之后,您可以在es中使用正确/优化的映射创建一个新索引,并确保Nutch将对该索引建立索引。
当然,您还可以重新索引已爬网的内容(请参阅本文 )。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.