[英]How Information Gain Works in Text Classification
如何在特征选择中使用信息获取?
信息增益( InfoGain(t)
)通过了解文档中是否存在术语(t)来测量为预测类(c)而获得的信息位数。
简而言之, 信息增益是在观察到特征值之后类变量的熵减少的量度 。 换句话说,用于分类的信息增益是衡量某个特征在某类中的普遍程度与在所有其他类别中的普遍程度相比的度量。
在文本分类中,功能是指出现在文档(又名语料库)中的术语。 考虑语料库中的两个术语term1
和term2
。 如果term1
由大于a的值来减少类变量的熵term2
,然后term1
比更有用term2
为在此示例中的文档分类。
情感分类中的示例
主要出现在正面电影评论中而很少出现在负面评论中的单词包含较高的信息。 例如,电影评论中出现“壮丽”一词是该评论是肯定的有力指示。 这使“宏伟”成为一个信息丰富的词。
在python中计算熵和信息增益
公式来自互信息,在这种情况下,您可以将互信息视为术语t的存在为我们猜测类提供了多少信息。
检查: https : //nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.