[英]tf-idf in python TfidfVectorizer
我正在尝试使用sklearn在python中实现tf-idf。
这是到目前为止我得到的:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["This is very strange",
"This is very nice"]
vectorizer = TfidfVectorizer(min_df=1)
X = vectorizer.fit_transform(corpus)
idf = vectorizer.idf_
dic = dict(zip(vectorizer.get_feature_names(), idf))
print dic
现在,当我将语料库更改为原始数据集时,如下所示:
corpus = [["This is very strange"],
["This is very nice"]]
并对此进行编码:
vectorizer = TfidfVectorizer(min_df=1)
f = list()
for doc in corpus:
X = vectorizer.fit_transform(doc)
idf = vectorizer.idf_
dic = dict(zip(vectorizer.get_feature_names(), idf))
f.append(dic)
print f
它不会工作。
所以基本上,我在2D列表中有多个文档。 最初,我有一个带有文档的一维列表。
在计算了tf-idf之后,我将对其应用分类。
我应该如何使我的tf-idf工作?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.