繁体   English   中英

从 tf-idf 稀疏矩阵中获取热门词(最高 tf-idf 值)

[英]getting top words from the tf-idf sparse matrix (highest tf-idf value)

我有一个大小为 208(208 个句子数组)的列表,看起来像:

all_words = [["this is a sentence ... "] , [" another one hello bob this is alice ... "] , ["..."] ...] 

我想获得具有最高 tf-idf 值的单词。 我创建了一个 tf-idf 矩阵:

from sklearn.feature_extraction.text import TfidfVectorizer

tokenize = lambda doc: doc.split(" ")
sklearn_tfidf = TfidfVectorizer(norm='l2', tokenizer=tokenize, ngram_range=(1,2))
tfidf_matrix = sklearn_tfidf.fit_transform(all_words)
sentences = sklearn_tfidf.get_feature_names()

dense_tfidf = tfidf_matrix.todense()

现在我不知道如何获得具有最高 tf-idf 值的单词。

dense_tfidf每一列代表一个词/2 个词。 (矩阵为 208x5481)

当我对每一列求和时,它并没有真正帮助 - 得到了一个简单的热门词的相同结果(我猜是因为它与简单的字数统计相同)。

如何获得具有最高 tf-idf 值的单词? 或者我怎样才能明智地将其规范化?

有一个类似的问题,但在https://towardsdatascience.com/multi-class-text-classification-with-scikit-learn-12f1e60e0a9f 上发现了这个问题,只需根据您的数据框更改 X 和 y 输入。 博客中的代码如下。 Sklearn 的文档帮助了我: http ://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html

from sklearn.feature_selection import chi2
import numpy as np
N = 2
for Product, category_id in sorted(category_to_id.items()):
features_chi2 = chi2(features, labels == category_id)
indices = np.argsort(features_chi2[0])
feature_names = np.array(tfidf.get_feature_names())[indices]
unigrams = [v for v in feature_names if len(v.split(' ')) == 1]
bigrams = [v for v in feature_names if len(v.split(' ')) == 2]
print("# '{}':".format(Product))
print("  . Most correlated unigrams:\n. {}".format('\n. '.join(unigrams[-N:])))
print("  . Most correlated bigrams:\n. {}".format('\n. '.join(bigrams[-N:])))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM