[英]Is the average of individual sentiment analysis of 5000 comments the same as sentiment analysis of concatenation of 5000 comments?
我正在嘗試對Reddit線程進行情感分析。 我面臨的問題是,某些雲NLP API的免費層(Google自然語言,Azure文本分析等)每月僅允許5000個免費層調用。 我正在嘗試查看是否可以將某些注釋連接起來,直到每次調用最多字符數以獲取更多在免費層中分析的注釋。
有趣的問題-如果評論是獨立的並且根本不相關,那么串聯或平均都會使您得到中性得分 -類似於一系列拋硬幣的結果是0.5,而不是1或0。這不是非常有用的 。
但是,假設您正在對一個帖子周圍的reddit線程進行情感分析(而不是對subreddit中多個帖子的線程進行分析),則通過並置或average可能會得到相同的結果 。 Reddit線程中的注釋通常是相關的,可以是肯定的也可以是否定的 (或完全不相關)。 因此,在用例中,您應該使用建議的串聯方法來解決問題。
我的理論(尚未得到數據的支持)是,使用平均數或連接數將使您的情緒趨於中立,並且不會看到強烈的正面或負面情緒。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.