繁体   English   中英

信息获取在文本分类中的工作方式

[英]How Information Gain Works in Text Classification

我现在必须学习信息获取以进行功能选择,但是我对此并不十分了解。 我是新手,对此感到困惑。

如何在特征选择(手动计算)中使用IG?

我只是有一个线索..有人可以帮助我如何使用公式:

在此处输入图片说明

然后是这个例子:

在此处输入图片说明

如何在特征选择中使用信息获取?

信息增益( InfoGain(t) )通过了解文档中是否存在术语(t)来测量为预测类(c)而获得的信息位数。

简而言之, 信息增益是在观察到特征值之后类变量的熵减少的量度 换句话说,用于分类的信息增益是衡量某个特征在某类中的普遍程度与在所有其他类别中的普遍程度相比的度量。

在文本分类中,功能是指出现在文档(又名语料库)中的术语。 考虑语料库中的两个术语term1term2 如果term1由大于a的值来减少类变量的熵term2 ,然后term1比更有用term2为在此示例中的文档分类。

情感分类中的示例

主要出现在正面电影评论中而很少出现在负面评论中的单词包含较高的信息。 例如,电影评论中出现“壮丽”一词是该评论是肯定的有力指示。 这使“宏伟”成为一个信息丰富的词。

在python中计算熵和信息增益

公式来自互信息,在这种情况下,您可以将互信息视为术语t的存在为我们猜测类提供了多少信息。

在此处输入图片说明

检查: https//nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM