簡體 English 中英

無監督情感分析

[英]Unsupervised Sentiment Analysis

原文 2010-10-13 04:25:42 4 7 machine-learning/ nlp/ sentiment-analysis

我已經閱讀了很多文章，這些文章解釋了在情感分析系統真正起作用之前需要將一組初始文本分類為“正面”或“負面”的必要性。

我的問題是：有沒有人嘗試過對“積極”形容詞與“消極”形容詞進行初步檢查，並考慮到任何簡單的否定詞以避免將“不快樂”歸類為積極？ 如果是這樣，是否有任何文章討論為什么這種策略不現實？

7 個解決方案

Peter Turney (2002) 的一篇經典論文解釋了一種僅使用優秀和糟糕的詞作為種子集進行無監督情感分析（正面/負面分類）的方法。 Turney 使用其他詞與這兩個形容詞的互信息達到了 74% 的准確率。

我還沒有嘗試過像您所描述的那樣未經訓練的情緒分析，但是我想說您把問題過於簡單化了。 僅僅分析形容詞並不足以很好地把握文本的情感； 例如，考慮“愚蠢”這個詞。 單獨來說，您會將其歸類為負面，但是如果產品評論中包含“... [x] 產品使他們的競爭對手因為沒有首先考慮此功能而顯得愚蠢...”那么那里的情緒肯定會是積極的. 在這樣的事情中，單詞出現的更大上下文肯定很重要。 這就是為什么僅使用未經訓練的詞袋方法（更不用說更有限的形容詞袋）不足以充分解決這個問題的原因。

預先分類的數據（“訓練數據”）有助於解決問題從試圖從頭開始確定文本是正面還是負面情緒轉變為嘗試確定文本與正面文本還是負面文本更相似，並以這種方式對其進行分類。 另一個重要的一點是，文本分析（例如情感分析）通常會受到文本特征因領域而異的影響。 這就是為什么擁有一組用於訓練的良好數據（即來自您工作領域內的准確數據，並有望代表您將要分類的文本）與構建良好的數據集同等重要的原因。系統進行分類。

不完全是一篇文章，但希望有所幫助。

larsmans 提到的 Turney (2002) 的論文是一篇很好的基礎論文。 在一項較新的研究中， Li 和 He [2009]介紹了一種使用潛在狄利克雷分配(LDA) 來訓練模型的方法，該模型可以以完全無監督的方式同時對文章的整體情緒和主題進行分類。 他們達到的准確率為 84.6%。

我在評論中嘗試了幾種情緒分析方法來挖掘意見。 對我來說效果最好的是 Liu 書中描述的方法： http : //www.cs.uic.edu/~liub/WebMiningBook.html在這本書中 Liu 和其他人比較了許多策略並討論了關於情緒分析和意見挖掘。

雖然我的主要目標是提取意見中的特征，但我實現了一個情感分類器來檢測這些特征的正面和負面分類。

我使用 NLTK 進行預處理（Word 標記化、POS 標記）和三元組創建。 然后我還使用了這個 takeit 中的貝葉斯分類器來與 Liu 指出的其他策略進行比較。

其中一種方法依賴於將表達此信息的每個 trigram 標記為 pos/neg，並在此數據上使用一些分類器。 我嘗試過並且效果更好的其他方法（在我的數據集中大約 85% 的准確率）是計算句子中每個單詞的 PMI（准時互信息）分數的總和，以及作為 pos/neg 類種子的優秀/差的單詞.

我嘗試使用情感詞典來發現關鍵詞，以預測句子級別的情感標簽。 鑒於詞匯表的普遍性（非領域相關），結果只有 61% 左右。 這篇論文可以在我的主頁上找到。

在稍微改進的版本中，考慮了否定副詞。 整個系統名為 EmoLib，可用於演示：

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

問候，

大衛，

我不確定這是否有幫助，但您可能想查看 Jacob Perkin 關於使用 NLTK 進行情感分析的博客文章。

情感分析中沒有神奇的“捷徑”，就像任何其他類型的文本分析一樣，試圖發現一大塊文本的潛在“關於性”。 試圖通過簡單的“形容詞”檢查或類似方法來縮短行之有效的文本分析方法會導致歧義、不正確的分類等，最終會讓您對情緒的准確度很差。 來源越簡潔（例如 Twitter），問題就越困難。