通过Tf-idf值清洗句子，只保留Python中句子中tf-idf高分词

Question

我有一个数据集，我有一个句子，对于每个句子，我都有该句子中每个相关单词的 tf-idf 值。

Sample dataset:
                                            heel syrup word3 word4 word5
    So what is a better exercise            0     0     0      0    0.34 
    how many days hv to take syrup          0   0.95    0      0     0      
    Can I take this solution ?              0   0   0   0      0.23

数据集非常庞大，大约有 10K 行是句子，5K 列是单词。 从这里我想创建一个新专栏，并为每个句子保留 tf-idf 值大于 0.6 的单词。 实现的代码是：

dataset = pd.read_csv(r'Desktop/tfidf_val.csv')

dataset.apply(lambda x: x.index[x.astype(bool)].tolist(), 1)

但我收到 Memory 错误。 知道如何解决这个问题或者代码是否有问题

Answer 1

我曾经遇到过这个问题，我的解决方案是更换：

df = pd.read_csv(r'filename.csv')

和

df = pd.read_csv(r'filename.csv',sep=';',low_memory=False)

编辑：由于您的列包含逗号并且文件以逗号分隔，因此您需要知道您有多少列。 当你这样做时，saty 是 M，添加这个：

n = M
df = pd.read_csv(r'filename.csv', 
                 usecols=range(M),
                 lineterminator='\n',       header=None,low_memory=False))

通过Tf-idf值清洗句子，只保留Python中句子中tf-idf高分词

问题描述

1 个解决方案

解决方案1
1 2020-11-12 14:53:19

通过Tf-idf值清洗句子，只保留Python中句子中tf-idf高分词

问题描述

1 个解决方案

解决方案1 1 2020-11-12 14:53:19

解决方案1
1 2020-11-12 14:53:19