[英]Mapping data into Elasticsearch from Nutch 1.x
我一直在與Nutch 1.10一起進行一些小型Web爬網,並使用Elasticsearch 1.4.1編制爬網數據的索引-看來,優化索引映射的唯一方法是首先進行爬網,回顧一下ES自己進行的映射然后使用映射API進行相應的更改(如有必要)。
有誰知道一種更有效的解決方案來優化ES索引內的Web爬網映射?
更新:甚至有可能從Nutch Web爬網更新ES映射嗎?
這里有兩件事要考慮:
關於索引數據,您使用的索引插件會對此產生影響。 例如,基本索引將為每個doc添加內容 , 主機 , URL 等 。 您可以查看插件的文檔,也可以簡單地查看輸出是什么(就像您所做的一樣)。
了解索引數據以及如何在es群集中使用它們之后,您可以在es中使用正確/優化的映射創建一個新索引,並確保Nutch將對該索引建立索引。
當然,您還可以重新索引已爬網的內容(請參閱本文 )。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.