NLTK從CSV移除停用詞

Question

盡管這是一個常見的問題，但我找不到適合我的情況的解決方案。 我有數據，如下所示以逗號分隔。

['my scientific','data']['is comma-separated','frequency']

我正在嘗試使用以下方式刪除停用詞

from nltk.corpus import stopwords
stopword = stopwords.words('english')
mynewtext = [w for w in transposed if w not in stopword]
out_file.writerow(w)

但這給了我一個錯誤，說“ Unicode警告：Unicode相等比較無法將兩個參數都轉換為Unicode-解釋為不相等”。 我不確定在哪里犯錯。 我希望我的csv文件中的輸出像

scientific,data
comma-separated,frequency

另外，我希望它適用於上下兩種情況。 casefield在我的Python版本2.7中不起作用

Answer 1

我認為您正在將上述代碼中的str object與unicode object進行比較。

我建議你看一下鏈接python unicode相等比較失敗

>>> s1 = u'Hello'
>>> s2 = unicode("Hello")
>>> type(s1), type(s2)
(<type 'unicode'>, <type 'unicode'>)
>>> s1==s2
True
>>> 
>>> s3='Hello'.decode('utf-8')
>>> type(s3)
<type 'unicode'>
>>> s1==s3
>>>True

Answer 2

嘗試

# -*- coding: utf-8 -*-,

在源代碼的標題中。

它告訴Python您保存的源文件是utf-8 。 Python 2的默認值為ASCII（ Python 3的默認值為utf-8 ）。 這只會影響解釋器讀取文件中字符的方式。

NLTK從CSV移除停用詞

問題描述

2 個解決方案

解決方案1
3 2014-11-21 19:31:35

解決方案2
2 已采納 2014-11-24 20:22:41

NLTK從CSV移除停用詞

問題描述

2 個解決方案

解決方案1 3 2014-11-21 19:31:35

解決方案2 2 已采納 2014-11-24 20:22:41

解決方案1
3 2014-11-21 19:31:35

解決方案2
2 已采納 2014-11-24 20:22:41