如何在scikit中获取与卡方特征选择分数相对应的特征名称

Question

我正在使用 Scikit 进行特征选择，但我想获取文本中所有 unigram 的得分值。 我得到了分数，但我如何将这些 map 转换为实际的功能名称。

from sklearn.feature_extraction.text  import CountVectorizer
from sklearn.feature_selection import  SelectKBest, chi2

Texts=["should schools have uniform","schools discipline","legalize marriage","marriage culture"]
labels=["3","3","7","7"]
vectorizer = CountVectorizer()
term_doc=vectorizer.fit_transform(Texts)
ch2 = SelectKBest(chi2, "all")
X_train = ch2.fit_transform(term_doc, labels)
print ch2.scores_

这给出了结果，但我怎么知道哪些特征名称映射到哪些分数？

Answer 1

它就在文档中：

get_feature_names()

Answer 2

要在初始 select 中打印特征名称，卡方中的所有特征然后将其与您的列匹配，并且根据 p 值，您可以删除该特征。

从 sklearn 导入数据集从 sklearn.feature_selection 导入 SelectKBest 从 sklearn.feature_selection 导入 chi2

X = df.drop("结果",axis=1) y = df["结果"]

chi_scores = chi2(X,y)

chi_scores

p_values = pd.Series(chi_scores[1],index = X.columns) p_values.sort_values(ascending = False, inplace = True)

p_values.plot.bar(figsize=(20,10))

打印（p_values>=0.5）

如何在scikit中获取与卡方特征选择分数相对应的特征名称

问题描述

2 个解决方案

解决方案1
3 已采纳 2015-05-04 07:05:53

解决方案2
0 2022-08-12 21:08:43

如何在scikit中获取与卡方特征选择分数相对应的特征名称

问题描述

2 个解决方案

解决方案1 3 已采纳 2015-05-04 07:05:53

解决方案2 0 2022-08-12 21:08:43

解决方案1
3 已采纳 2015-05-04 07:05:53

解决方案2
0 2022-08-12 21:08:43