如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

Question

我是 scikit-learn 的TfidfVectorizer ，我使用TfidfVectorizer在一组文档中查找术语的TfidfVectorizer值。 我使用以下代码来获得相同的结果。

vectorizer = TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)
X = vectorizer.fit_transform(lectures)

现在，如果我打印 X，我可以看到矩阵中的所有条目，但是如何根据 tfidf 分数找到前 n 个条目。 除此之外，是否有任何方法可以帮助我根据每 ngram 的 tfidf 分数找到前 n 个条目，即 unigram、bigram、trigram 等中的顶级条目？

Answer 1

从 0.15 版本开始，可以通过属性idf_访问由TfidfVectorizer学习的特征的全局术语权重，该属性将返回一个长度等于特征维度的数组。 按此权重对特征进行排序以获得最高权重的特征：

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

lectures = ["this is some food", "this is some drink"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(lectures)
indices = np.argsort(vectorizer.idf_)[::-1]
features = vectorizer.get_feature_names()
top_n = 2
top_features = [features[i] for i in indices[:top_n]]
print top_features

输出：

[u'food', u'drink']

通过 ngram 获取顶级特征的第二个问题可以使用相同的想法来完成，但有一些额外的步骤将特征分成不同的组：

from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

lectures = ["this is some food", "this is some drink"]
vectorizer = TfidfVectorizer(ngram_range=(1,2))
X = vectorizer.fit_transform(lectures)
features_by_gram = defaultdict(list)
for f, w in zip(vectorizer.get_feature_names(), vectorizer.idf_):
    features_by_gram[len(f.split(' '))].append((f, w))
top_n = 2
for gram, features in features_by_gram.iteritems():
    top_features = sorted(features, key=lambda x: x[1], reverse=True)[:top_n]
    top_features = [f[0] for f in top_features]
    print '{}-gram top:'.format(gram), top_features

输出：

1-gram top: [u'drink', u'food']
2-gram top: [u'some drink', u'some food']

如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

问题描述

1 个解决方案

解决方案1
62 已采纳 2014-08-09 14:24:09

如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

问题描述

1 个解决方案

解决方案1 62 已采纳 2014-08-09 14:24:09

解决方案1
62 已采纳 2014-08-09 14:24:09