NLTK：情绪分析和词干分析

Question

我正在为情感分析编写代码。 现在，我想在代码段中使用Stemmer，但是当我使用打印功能时，结果表明词干无法正常工作。 你知道我在做什么错吗？ 这是我的代码段：

pos_data = []
with open('Positive.txt') as f:  
    for line in f:
        pos_data.append([format_sentence(line), 'pos'])
    for line in f:
        stemmer.stem(pos_data)
print (pos_data)

Answer 1

您既需要将文件拆分成几行，又需要将这些行拆分成多个单词（可以被标记化）

>>> import nltk
>>> from nltk import PorterStemmer
>>> test = 'this sentence is just a tester set of words'
>>> test_tokenize = nltk.word_tokenize(test)
>>> test_tokenize
['this', 'sentence', 'is', 'just', 'a', 'tester', 'set', 'of', 'words']
>>> port = PorterStemmer()
>>> for word in test_tokenize:
...     print port.stem(word)
... 
thi
sentenc
is
just
a
tester
set
of
word



with open('Positive.txt', 'rb') as f:
    for line in f.readlines():
        words = nltk.word_tokenize(line)
        for word in words:
            print port.stem(word)

Answer 2

您似乎没有正确调用Stemmer API，因为它一次只需要一个令牌。 这意味着您应该首先标记您的句子。 在此处查看文档http://www.nltk.org/howto/stem.html

另外，为了将来参考，您应该包括完整的工作代码，以及错误的导入和堆栈跟踪。

with open('Positive.txt') as f:  
    for line in f:
        tokens = format_sentence(line).split() # tokenize using spaces
        stem_sentence = ' '.join([stemmer.stem(token) for token in tokens])
        pos_data.append([stem_sentence, 'pos'])

NLTK：情绪分析和词干分析

问题描述

2 个解决方案

解决方案1
0 2016-04-13 19:23:54

解决方案2
0 2016-04-13 19:24:28

NLTK：情绪分析和词干分析

问题描述

2 个解决方案

解决方案1 0 2016-04-13 19:23:54

解决方案2 0 2016-04-13 19:24:28

解决方案1
0 2016-04-13 19:23:54

解决方案2
0 2016-04-13 19:24:28