[英]Add tf-idf values as columns in a matrix
from sklearn.feature_extraction.text import TfidfVectorizer
item = list(df['item1']) + list(df['item2'])
tfidf = TfidfVectorizer()
tfidf_sp = tfidf.fit_transform(item)
for i in len(list(df['item1'])):
new_list =[]
new_list.append(tfidf.idf_)
df['updated_item'] = list(new_list)
我试图将tfidf分数添加为功能。 这是正确的方法吗?
item1的形状为(400k),item2的形状相同。 tfidf_sp的形状为(800k,100k)。
import pandas as pd
pd.DataFrame(tfidf_sp, columns = tfidf.get_feature_names())
这将为您提供一个矩阵,其中的列作为tfidf词汇,每行包含与每个项目相对应的tfidf值。
希望这可以帮助。
编辑:
尝试将获得的术语文档矩阵转换为数组,如下所示:
tfidf_sp = tfidf.fit_transform(item).toarray()
这将解决Pandas错误。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.