[英]Using GLOVEs pretrained glove.6B.50.txt as a basis for word embeddings R
[英]GloVe word embeddings containing sentiment?
我一直在研究帶有詞嵌入的情感分析。 我閱讀了 state 的論文,其中單詞嵌入忽略了文本中單詞的情感信息。 一篇論文指出,在語義相似的前 10 個詞中,大約 30% 的詞具有相反的極性,例如快樂 - 悲傷。
因此,我使用 R 中的 GloVe 算法在我的數據集(亞馬遜評論)上計算了詞嵌入。 然后,我查看了余弦相似度最相似的單詞,我發現實際上每個單詞在情感上都是相似的。 (例如美麗 - 可愛 - 華麗 - 漂亮 - 好 - 愛)。 因此,我想知道這是怎么可能的,因為我從閱讀幾篇論文中預料到了相反的結果。 我的發現可能是什么原因?
我讀過的許多論文中的兩篇:
幾個假設:當你說你計算了 GLoVe 嵌入時,你的意思是你使用了預訓練的 GLoVe。 當您說您查看了具有余弦相似度的最相似的單詞時,您的意思是說與某個單詞最相似的單詞/ wrt some word
Word Embeddings 忽略文本的情感信息
上述陳述意味着詞嵌入算法(據我所知,其中大部分)不是為捕捉詞的情感而設計或制定的。 但是,一般來說,詞嵌入算法將意義相似的詞(基於統計上的接近度和共現)映射到彼此附近。 例如,“Woman”和“Girl”將在嵌入的 n 維空間中彼此靠近。 但這並不意味着這里會捕獲任何與情緒相關的信息。
因此,單詞:(美麗 - 可愛 - 華麗 - 漂亮 - 好 - 愛),在情感上與某個詞相似並不奇怪。 另外,請研究相似度分數,這樣會更清楚。
語義相似的前 10 個詞,大約 30% 的詞具有相反的極性
在這里,語義性與上下文的相關性較小,而情感與上下文的相關性更高。 一個詞不能定義情緒。
例子:
傑克:“你的裙子很漂亮,格洛麗亞”: 格洛麗亞:“我的腳很漂亮!”
在這兩個句子中,beautiful 都帶有完全不同的情感,而對於它們來說,它們將具有相同的嵌入。 現在,用(可愛 - 華麗 - 漂亮 - 漂亮)替換美麗,語義事物如其中一篇論文所述是正確的。 此外,Word Embeddings 沒有捕捉到情緒,因此,其他論文也是如此。
可能發生混淆的地方是認為兩個或多個具有相似含義的單詞在情感上相似。 情感信息可以在句子級別或文檔級別而不是在單詞級別收集。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.