繁体 English 中英

无监督情感分析

[英]Unsupervised Sentiment Analysis

原文 2010-10-13 04:25:42 1 7 machine-learning/ nlp/ sentiment-analysis

我已经阅读了很多文章，这些文章解释了在情感分析系统真正起作用之前需要将一组初始文本分类为“正面”或“负面”的必要性。

我的问题是：有没有人尝试过对“积极”形容词与“消极”形容词进行初步检查，并考虑到任何简单的否定词以避免将“不快乐”归类为积极？ 如果是这样，是否有任何文章讨论为什么这种策略不现实？

7 个解决方案

Peter Turney (2002) 的一篇经典论文解释了一种仅使用优秀和糟糕的词作为种子集进行无监督情感分析（正面/负面分类）的方法。 Turney 使用其他词与这两个形容词的互信息达到了 74% 的准确率。

我还没有尝试过像您所描述的那样未经训练的情绪分析，但是我想说您把问题过于简单化了。 仅仅分析形容词并不足以很好地把握文本的情感； 例如，考虑“愚蠢”这个词。 单独来说，您会将其归类为负面，但是如果产品评论中包含“... [x] 产品使他们的竞争对手因为没有首先考虑此功能而显得愚蠢...”那么那里的情绪肯定会是积极的. 在这样的事情中，单词出现的更大上下文肯定很重要。 这就是为什么仅使用未经训练的词袋方法（更不用说更有限的形容词袋）不足以充分解决这个问题的原因。

预先分类的数据（“训练数据”）有助于解决问题从试图从头开始确定文本是正面还是负面情绪转变为尝试确定文本与正面文本还是负面文本更相似，并以这种方式对其进行分类。 另一个重要的一点是，文本分析（例如情感分析）通常会受到文本特征因领域而异的影响。 这就是为什么拥有一组用于训练的良好数据（即来自您工作领域内的准确数据，并有望代表您将要分类的文本）与构建良好的数据集同等重要的原因。系统进行分类。

不完全是一篇文章，但希望有所帮助。

larsmans 提到的 Turney (2002) 的论文是一篇很好的基础论文。 在一项较新的研究中， Li 和 He [2009]介绍了一种使用潜在狄利克雷分配(LDA) 来训练模型的方法，该模型可以以完全无监督的方式同时对文章的整体情绪和主题进行分类。 他们达到的准确率为 84.6%。

我在评论中尝试了几种情绪分析方法来挖掘意见。 对我来说效果最好的是 Liu 书中描述的方法： http : //www.cs.uic.edu/~liub/WebMiningBook.html在这本书中 Liu 和其他人比较了许多策略并讨论了关于情绪分析和意见挖掘。

虽然我的主要目标是提取意见中的特征，但我实现了一个情感分类器来检测这些特征的正面和负面分类。

我使用 NLTK 进行预处理（Word 标记化、POS 标记）和三元组创建。 然后我还使用了这个 takeit 中的贝叶斯分类器来与 Liu 指出的其他策略进行比较。

其中一种方法依赖于将表达此信息的每个 trigram 标记为 pos/neg，并在此数据上使用一些分类器。 我尝试过并且效果更好的其他方法（在我的数据集中大约 85% 的准确率）是计算句子中每个单词的 PMI（准时互信息）分数的总和，以及作为 pos/neg 类种子的优秀/差的单词.

我尝试使用情感词典来发现关键词，以预测句子级别的情感标签。 鉴于词汇表的普遍性（非领域相关），结果只有 61% 左右。 这篇论文可以在我的主页上找到。

在稍微改进的版本中，考虑了否定副词。 整个系统名为 EmoLib，可用于演示：

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

问候，

大卫，

我不确定这是否有帮助，但您可能想查看 Jacob Perkin 关于使用 NLTK 进行情感分析的博客文章。

情感分析中没有神奇的“捷径”，就像任何其他类型的文本分析一样，试图发现一大块文本的潜在“关于性”。 试图通过简单的“形容词”检查或类似方法来缩短行之有效的文本分析方法会导致歧义、不正确的分类等，最终会让您对情绪的准确度很差。 来源越简洁（例如 Twitter），问题就越困难。