繁体   English   中英

筛选数组项目上的术语汇总

[英]Term aggregation on filtered array items

我想对数组内的术语进行汇总,但是我只对某些数组项感兴趣。 我做了一个简化的例子。 基本上,如果Type.field valid我想在Type.string上聚合。

POST so/question
{
  "Type": [
    [
      {
        "field": "invalid",
        "string": "A"
      }
    ],
    [
      {
        "field": "valid",
        "string": "B"
      }
    ]
  ]
}

GET /so/_search
{
  "size": 0,
  "aggs": {
    "xxx": {
      "filter": {
        "term": {
          "Type.field": "valid"
        }
      },
      "aggs": {
        "yyy": {
          "terms": {
            "field": "Type.string.keyword",
            "min_doc_count": 0
          }
        }
      }
    }
  }
}

聚合结果有2个键,而我只需要“ B”键。

"aggregations": {
  "xxx": {
    "doc_count": 1,
    "yyy": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "A",
          "doc_count": 1
        },
        {
          "key": "B",
          "doc_count": 1
        }
      ]
    }
  }
}

有没有一种方法可以汇总与过滤器匹配的数组项? 不幸的是,我无法更改数据格式,这将是显而易见的解决方案。

除非文档是Nested Type ,否则我认为使用简单数组类型是不可能的,因为Elasticsearch会展平对象并存储它们。

查询这些展平对象上的任何内容都会给您完全意外的结果。

现在,我提出了以下查询, 使用脚本中术语汇总功能可以很好地解决您在问题中提到的文档

POST so/_search
{

  "size": 0,
  "aggs": {
    "xxx": {
      "filter": {
        "term": {
          "Type.field": "valid"
        }
      },
      "aggs": {
        "yyy": {
          "terms": {
            "script": { 
              "source": """
                  int size = doc['Type.string.keyword'].values.length;
                  for(int i=0; i<size; i++){
                    String myString = doc['Type.string.keyword'][i];
                    if(myString.equals("B") && doc['Type.field.keyword'][i].equals("valid")){
                      return myString;
                    }
                  }""",
              "lang": "painless"
            }
          }
        }
      }
    }
  }
}

但是,如果您摄取以下文档,则会发现聚合响应将完全不同。 这是因为数组类型不会在其各自数组的ith位置中存储每个Type.field值和Type.string值。

POST so/question/2
{
  "Type": [
    [
      {
        "field": "valid",
        "string": "A"
      }
    ],
    [
      {
        "field": "invalid",
        "string": "B"
      }
    ]
  ]
}

请注意,即使是下面的简单Bool查询也无法按预期方式工作,并最终显示了两个文档。

POST so/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "Type.field.keyword": "valid" }},
        { "match": { "Type.string.keyword": "B" }}
      ]
    }
  }
}

希望能帮助到你!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM