簡體   English   中英

從Nutch 1.x將數據映射到Elasticsearch

[英]Mapping data into Elasticsearch from Nutch 1.x

我一直在與Nutch 1.10一起進行一些小型Web爬網,並使用Elasticsearch 1.4.1編制爬網數據的索引-看來,優化索引映射的唯一方法是首先進行爬網,回顧一下ES自己進行的映射然后使用映射API進行相應的更改(如有必要)。

有誰知道一種更有效的解決方案來優化ES索引內的Web爬網映射?

更新:甚至有可能從Nutch Web爬網更新ES映射嗎?

這里有兩件事要考慮:

  1. 被索引的數據是什么?
  2. 如何將其正確索引到es

關於索引數據,您使用的索引插件會對此產生影響。 例如,基本索引將為每個doc添加內容主機URL 您可以查看插件的文檔,也可以簡單地查看輸出是什么(就像您所做的一樣)。

了解索引數據以及如何在es群集中使用它們之后,您可以在es中使用正確/優化的映射創建一個新索引,並確保Nutch將對該索引建立索引。

當然,您還可以重新索引已爬網的內容(請參閱本文 )。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM