如何有效地僅獲取文檔的一個字段以進行彈性搜索

Question

我是Elasticsearch的新手，並且遇到了一些技術困難。 目前，我有按小時索引存儲的文檔，它們是時間序列數據。 我要弄清楚的是如何僅有效地提取key字段值，該值定義為"key": { "type": "long" } 。 我最初嘗試的是朴素的方法，該方法可滾動瀏覽所有索引並提取字段，但顯然並不能很快完成，每個小時的索引大約有1000萬個文檔，並且滾動3個索引已經花費了很長時間。

然后，我進入術語聚合，試圖使key段成為聚合術語：

  "aggregations": {
    "test_group": {
      "terms": {
        "field": "key",
        "size": 100000
      }
    }
  }

這給了我更好的性能，但是當用戶嘗試搜索歷史記錄時，它還不足以作為實時系統，因為key是一個高基數字段。 一些粗略的基准測試告訴我：

size = 50k,  indices = 4, time range = 3hrs: 7.1s
size = 100k, indices = 4, time range = 3hrs: 7.669s
size = 1m,   indices = 4, time range = 2hrs: 12.669s
size = 1m,   indices = 4, time range = 3hrs: 14.669s

這還沒有結束，因為我正在使用彈性搜索go庫來解析輸出並進行一些處理，這給整個響應增加了不平凡的時間。

我的問題是：這已經是最好的ES可以做到的嗎？ 還有其他我想念的方式嗎？ 我目前在ES 5.6和3個群集節點上，全部使用Amazon i3-4xl實例。 謝謝。

Answer 1

如果我正確理解了您的問題，那么您正在嘗試從文檔中檢索一個稱為“鍵”的特定字段，並且我認為您正在返回的文檔中還有其他字段是您不關心的？

如果是這樣，請嘗試以下操作：

GET /_search
{
    "_source": {
        "includes": ["key"]
    }
}

Answer 2

我不確定您要實現的目標，但是從文檔中檢索一個字段通常需要將store參數設置為true，因此不需要從_source字段解析此字段。

查看文件： https : //www.elastic.co/guide/zh-CN/elasticsearch/reference/current/number.html#number-params

如何有效地僅獲取文檔的一個字段以進行彈性搜索

問題描述

2 個解決方案

解決方案1
0 2017-10-16 20:23:05

解決方案2
0 2017-10-17 12:57:27

如何有效地僅獲取文檔的一個字段以進行彈性搜索

問題描述

2 個解決方案

解決方案1 0 2017-10-16 20:23:05

解決方案2 0 2017-10-17 12:57:27

解決方案1
0 2017-10-16 20:23:05

解決方案2
0 2017-10-17 12:57:27