[英]Is the average of individual sentiment analysis of 5000 comments the same as sentiment analysis of concatenation of 5000 comments?
我正在尝试对Reddit线程进行情感分析。 我面临的问题是,某些云NLP API的免费层(Google自然语言,Azure文本分析等)每月仅允许5000个免费层调用。 我正在尝试查看是否可以将某些注释连接起来,直到每次调用最多字符数以获取更多在免费层中分析的注释。
有趣的问题-如果评论是独立的并且根本不相关,那么串联或平均都会使您得到中性得分 -类似于一系列抛硬币的结果是0.5,而不是1或0。这不是非常有用的 。
但是,假设您正在对一个帖子周围的reddit线程进行情感分析(而不是对subreddit中多个帖子的线程进行分析),则通过并置或average可能会得到相同的结果 。 Reddit线程中的注释通常是相关的,可以是肯定的也可以是否定的 (或完全不相关)。 因此,在用例中,您应该使用建议的串联方法来解决问题。
我的理论(尚未得到数据的支持)是,使用平均数或连接数将使您的情绪趋于中立,并且不会看到强烈的正面或负面情绪。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.