簡體   English   中英

如何在python中加速Elasticsearch滾動

[英]How to speed up Elasticsearch scroll in python

我需要通過es api獲取一定時間的數據,並使用python對這些數據進行一些自定義分析並將結果顯示在dashboard上。

每 15 分鍾大約有 20 萬條記錄,按日期索引。

現在我使用scroll-scan來獲取數據,但是獲取200000條記錄需要將近一分鍾,似乎太慢了。

有什么辦法可以更快地處理這些數據嗎?我可以使用redis之類的東西來保存結果並避免重復工作嗎?

是否可以使用聚合在 Elasticsearch 端進行分析?

假設您還沒有這樣做,您應該使用_source只下載所需的絕對最少數據。 您也可以嘗試將size參數從默認值 1000 增加到scan() 。但是,我希望只有適度的速度改進。

如果歷史數據沒有改變,那么像 Redis 這樣的緩存(甚至只是一個本地文件)可能是一個很好的解決方案。 如果歷史數據可以更改,那么您必須管理緩存失效。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM