從數據集中刪除最常用的單詞

Question

我正在嘗試處理文本，其中重復很多。 我之前在SKLearn中使用過tf-idf矢量化器，其參數max_df=0.5 。 這意味着，如果該單詞出現在輸入的50％以上，則不會使用該單詞。 我想知道Python中一般來說還是Doc2Vec或NLTK中是否有類似的功能：我想刪除存在於數據集中50％以上的單詞，而無需對其進行向量化。

例如，我想從一個像這樣的數據幀中制作：

0 | This is new: A puppy ate cheese! See?
1 | This is new: A cat was found. See?
2 | This is new: Problems arise. See?

這樣的輸出：

0 | puppy ate cheese
1 | cat was found
2 | problems arise

我已經完成了去大寫和停用詞的刪除，現在我想刪除最常用的詞。 我還想存儲這些信息，因為可能會輸入新的輸入，並且我想從新輸入中刪除那些在原始語料庫中經常出現的相同單詞。

Answer 1

你可以做

import nltk 
allWords = nltk.tokenize.word_tokenize(text)
allWordDist = nltk.FreqDist(w.lower() for w in allWords)

其次是

mostCommon= allWordDist.most_common(10).keys()

在預處理中？

如果你看着

allWordDist .items()

我想您會找到所需的一切。

從數據集中刪除最常用的單詞

問題描述

1 個解決方案

解決方案1
1 已采納 2017-11-05 15:39:22

從數據集中刪除最常用的單詞

問題描述

1 個解決方案

解決方案1 1 已采納 2017-11-05 15:39:22

解決方案1
1 已采納 2017-11-05 15:39:22