簡體   English   中英

在Elastic中索引海量數據的最快方法

[英]Fastest way to index huge data in elastic

我被要求將3 * 10 ^ 12個以上的文檔索引到彈性集群中,該集群有50個節點和40個核心,以及128G的內存。 我能夠使用python語言(多線程)中的_bulk做到這一點,但對於一個節點,我每秒無法達到50,000條以上的記錄。

所以我想知道:

  1. 索引數據的最快方法是什么?
  2. 據我所知,我可以為每個數據節點建立索引,它線性增長嗎? 我的意思是每個節點可以有50,000條記錄?

根據您的問題:

  1. 平衡您的資源。 為了獲得最佳性能,Elasticsearch和您的應用程序都需要嘗試以服務器利用率的60-80%運行。 您可以通過在python或Unix xargs + Elasticsearch _bulk API中使用多重處理來從應用程序一側實現此利用率。

  2. 根據我的經驗,Elasticsearch的性能幾乎呈線性增長,達到99%。 如果您對群集/索引分片設置的設計正確無誤。 每個節點可能有50,000 records/second

以下是一些有用的鏈接,它們將有所幫助:

建議進行性能測試,然后在工作負載期間密切監視群集和應用程序服務器。 (我用unix htop + newrelic結合:D)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM