ES 1.7.3 Elasticsearch Java 客户端：重要术语聚合未知值

Question

Out 团队目前正在将遗留项目从 Elasticsearch v1.7.3 迁移到 v7.8.0。 It's in most part written in Scala, so along with this we would like to replace Java client: Maven Repository: org.elasticsearch » elasticsearch » 1.7.3

在工作过程中，我们发现我们非常不确定的代码是平静的，例如：

SignificantTerms.Bucket bucket = //fethced significant terms;
bucket.getDocCount
bucket.getSupersetDf
bucket.getSubsetSize
bucket.getSupersetSize

所以我们根本没有找到getSupersetDf 、 getSubsetSize和getSupersetSize代表什么。 在 ES 1.7.3 中。 重要术语聚合的文档：重要术语聚合 | Elasticsearch 参考 [1.7] | 松紧带

每个桶只doc_count 、 bg_count和score 。 这些方法代表什么——我们只能猜测。 我们的建议之一是getSupersetDf的值与bg_count相同，但这也是主要问题 - Java 客户端和 Elastic 文档中的值之间没有直接映射。

请你帮助我们好吗？

谢谢！

Answer 1

我们可以在ES 源代码中找到它：

@Override
public final XContentBuilder toXContent(XContentBuilder builder, Params params) throws IOException {
    builder.startObject();
    keyToXContent(builder);
    builder.field(CommonFields.DOC_COUNT.getPreferredName(), getDocCount());
    builder.field(InternalSignificantTerms.SCORE, getSignificanceScore());
    builder.field(InternalSignificantTerms.BG_COUNT, getSupersetDf());
    getAggregations().toXContentInternal(builder, params);
    builder.endObject();
    return builder;
}

您可以看到确实， getSupersetDf代表bg_count ，它是包含该术语的背景（超集）文档的数量。

这表明， subsetSize是doc_count ，而getSupersetSize指向这个计算。 我认为这意味着背景中的文档总数（无论它们是否包含该术语）。

所以总结一下：

bucket.getDocCount ：前台计数，每个重要术语桶中的doc_count 。
bucket.getSupersetDf ：背景计数，每个重要术语桶中的bg_count 。
bucket.getSubsetSize ：前台文档总数，即在桶列表之外的响应中出现的doc_count 。
bucket.getSupersetSize : 总背景文档计数，出现在桶列表之外的响应中的bg_count 。

ES 1.7.3 Elasticsearch Java 客户端：重要术语聚合未知值

问题描述

1 个解决方案

解决方案1
3 已采纳 2021-02-28 14:16:48

ES 1.7.3 Elasticsearch Java 客户端：重要术语聚合未知值

问题描述

1 个解决方案

解决方案1 3 已采纳 2021-02-28 14:16:48

解决方案1
3 已采纳 2021-02-28 14:16:48