[英]What is the fastest way to change type_mapping from long to string, when having HUGE amount of data?
[英]Fastest way to index huge data in elastic
我被要求將3 * 10 ^ 12個以上的文檔索引到彈性集群中,該集群有50個節點和40個核心,以及128G的內存。 我能夠使用python語言(多線程)中的_bulk做到這一點,但對於一個節點,我每秒無法達到50,000條以上的記錄。
所以我想知道:
根據您的問題:
平衡您的資源。 為了獲得最佳性能,Elasticsearch和您的應用程序都需要嘗試以服務器利用率的60-80%運行。 您可以通過在python或Unix xargs
+ Elasticsearch _bulk
API中使用多重處理來從應用程序一側實現此利用率。
根據我的經驗,Elasticsearch的性能幾乎呈線性增長,達到99%。 如果您對群集/索引分片設置的設計正確無誤。 每個節點可能有50,000 records/second
。
以下是一些有用的鏈接,它們將有所幫助:
https://www.elastic.co/guide/en/elasticsearch/guide/current/indexing-performance.html
https://www.elastic.co/guide/zh-CN/elasticsearch/reference/5.6/modules-threadpool.html (用於在工作負載期間監視集群)
建議進行性能測試,然后在工作負載期間密切監視群集和應用程序服務器。 (我用unix htop + newrelic結合:D)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.