繁体   English   中英

在Elastic Search中忽略TF-IDF

Ignoring TF-IDF in Elastic Search

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我有一个基于职位描述关键字的简历筛选候选人的用例。 由于每次将新的候选人资料添加到内容列表时我都无法负担分数的变化(我认为IDF会发生变化),因此我想省略TF_IDF。

索引文件是

{
                "_index": "crawler_profiles",
                "_type": "_doc",
                "_id": "81ebeb3ff52d90a488b7bce752a4a0cf",
                "_score": 1,
                "_source": {
                    "content": "Peachtree MBA"
                    }
}

根据这里的文档 ,我创建了以下查询

 {
  "query": {
    "bool": {
      "should": [
        { "constant_score": {
          "query": { "match": { "content": "corporate strategy" }}
        }},
        { "constant_score": {
          "query": { "match": { "content": "strategy consulting" }}
        }},
        { "constant_score": {
          "query": { "match": { "content": "international strategy" }}
        }},
        { "constant_score": {
          "query": { "match": { "content": "MBA" }}
        }}
      ]
    }
  }
}

我收到以下错误

[constant_score] query does not support [query]

我只想为1或n个词的存在评分1,如果不存在则给0评分(最终跳过tf-idf)。 任何帮助表示赞赏。

ES版本:6.4.2

1 个回复

您链接的文档适用于ES 2.x版。 在6.4.x中,有一些更改,如下所示: https ://www.elastic.co/guide/en/elasticsearch/reference/6.4/query-dsl-constant-score-query.html

您应该能够将查询更新为以下内容:

编辑: 更新了"term"过滤器以使用"match"

{
  "query": {
    "bool": {
      "should": [
        { "constant_score": {
          "filter": { "match": { "description": "corporate strategy" }}
        }},
        { "constant_score": {
          "filter": { "match": { "description": "strategy consulting" }}
        }},
        { "constant_score": {
          "filter": { "match": { "description": "international strategy" }}
        }},
        { "constant_score": {
          "filter": { "match": { "description": "MBA" }}
        }}
      ]
    }
  }
}
1 python TfidfVectorizer中的tf-idf

我正在尝试使用sklearn在python中实现tf-idf。 这是到目前为止我得到的: 现在,当我将语料库更改为原始数据集时,如下所示: 并对此进行编码: 它不会工作。 所以基本上,我在2D列表中有多个文档。 最初,我有一个带有文档的一维列表。 在计 ...

3 Dask中的TF-IDF计算

Apache Spark 带有一个包来进行 TF-IDF 计算,我觉得它非常方便: https : //spark.apache.org/docs/latest/mllib-feature-extraction.html 有没有等价的,或者也许有办法用 Dask 做到这一点? 如果是这样,是否也 ...

2020-09-23 14:25:11 1 212   dask
4 python中的TF-IDF,而不是所需的结果

我在网上找到了一个python教程,用于计算tf-idf和余弦相似度。 我正在尝试使用它并对其进行一些更改。 问题是我的结果很奇怪,几乎没有任何意义。 例如,我正在使用3个文档。 [doc1,doc2,doc3] doc1和doc2相似,而doc3完全不同。 结果在这里: ...

5 Python中的TF-IDF矩阵

我的计算语料库TF-IDF代码如下: 我收到的输出是: 问题是如何计算句子"she is good" TF-IDF ? 语料库是上面代码中的train_set 。 ...

6 Greemlin中的TF-IDF算法

我在尝试在rexster图形数据库中计算TF_IDF时遇到问题。 这是我得到的: 假设我有一个图形,它由代表项T的一组顶点和代表文档D的一组顶点组成。 T中的项与D中的文档之间有边E,每个边都有项频率tf。 例如。 (伪): 当我尝试执行以下操作时,如何写出能够计算 ...

7 在 TF-IDF 中结合 Unigram 和 Bigram

我正在做一个项目,我们正试图在分为多个集群的文章标题语料库上生成 TF-IDF。 我们的目标是让每个集群同时包含最重要的一元组和二元组。 我们的计划是这样的。 我们首先在我们的语料库中确定最可能的二元组。 使用该列表,我们然后计算每个集群中这些二元组的频率。 我们接下来要做的,这就是我们的问题所在, ...

8 在Gensim中为我的词汇计算tf-idf

我有一组需要计算tf-idf值的单词(n-gram)。 这些话是; 我的语料库如下。 我目前得到的TF-IDF值,我正克myvocabulary使用sklearn如下。 但是,我有兴趣在Gensim中进行相同的操作。 我在Gensim中遇到的所有例子都是如此。 ...

9 在Python中反转TF-IDF

我可以反转或抵消TF-IDF分数,以便更多常用术语对最终分数贡献更多吗? 我想在语料库中找到最常见的单词集,这对于任何小的文档子集都不是唯一的。 ...

10 python中的TF-Idf计算

我是python的新手,我想编写一个函数,该函数在给定两个参数的情况下计算术语频率反文档频率。 参数:docs ........列表列表,其中每个子列表包含一个文档的标记。 doc_freqs ... dict从术语到文档的频率(特定术语有多少个文档)。 所需输出: 我的代 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM