繁体   English   中英

python TfidfVectorizer中的tf-idf

[英]tf-idf in python TfidfVectorizer

我正在尝试使用sklearn在python中实现tf-idf。

这是到目前为止我得到的:

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = ["This is very strange",
          "This is very nice"]
vectorizer = TfidfVectorizer(min_df=1)
X = vectorizer.fit_transform(corpus)
idf = vectorizer.idf_
dic = dict(zip(vectorizer.get_feature_names(), idf))
print dic

现在,当我将语料库更改为原始数据集时,如下所示:

corpus = [["This is very strange"],
          ["This is very nice"]]

并对此进行编码:

vectorizer = TfidfVectorizer(min_df=1)
f = list()
for doc in corpus:
    X = vectorizer.fit_transform(doc)
    idf = vectorizer.idf_
    dic = dict(zip(vectorizer.get_feature_names(), idf))
    f.append(dic)
print f

它不会工作。

所以基本上,我在2D列表中有多个文档。 最初,我有一个带有文档的一维列表。

在计算了tf-idf之后,我将对其应用分类。

我应该如何使我的tf-idf工作?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM