繁体   English   中英

将tf-idf值添加为矩阵中的列

[英]Add tf-idf values as columns in a matrix

from sklearn.feature_extraction.text import TfidfVectorizer

item = list(df['item1']) + list(df['item2'])
tfidf = TfidfVectorizer()
tfidf_sp = tfidf.fit_transform(item)

for i in len(list(df['item1'])):
    new_list =[]
    new_list.append(tfidf.idf_)
df['updated_item'] = list(new_list)

我试图将tfidf分数添加为功能。 这是正确的方法吗?

item1的形状为(400k),item2的形状相同。 tfidf_sp的形状为(800k,100k)。

import pandas as pd

pd.DataFrame(tfidf_sp, columns = tfidf.get_feature_names())

这将为您提供一个矩阵,其中的列作为tfidf词汇,每行包含与每个项目相对应的tfidf值。

希望这可以帮助。

编辑:

尝试将获得的术语文档矩阵转换为数组,如下所示:

tfidf_sp = tfidf.fit_transform(item).toarray()

这将解决Pandas错误。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM