繁体 English 中英

信息获取在文本分类中的工作方式

[英]How Information Gain Works in Text Classification

原文 2016-12-15 07:53:38 2 2 text/ text-classification/ information-theory

我现在必须学习信息获取以进行功能选择，但是我对此并不十分了解。 我是新手，对此感到困惑。

如何在特征选择（手动计算）中使用IG？

我只是有一个线索..有人可以帮助我如何使用公式：

然后是这个例子：

2 个解决方案

如何在特征选择中使用信息获取？

信息增益（ InfoGain(t) ）通过了解文档中是否存在术语（t）来测量为预测类（c）而获得的信息位数。

简而言之， 信息增益是在观察到特征值之后类变量的熵减少的量度 。 换句话说，用于分类的信息增益是衡量某个特征在某类中的普遍程度与在所有其他类别中的普遍程度相比的度量。

在文本分类中，功能是指出现在文档（又名语料库）中的术语。 考虑语料库中的两个术语term1和term2 。 如果term1由大于a的值来减少类变量的熵term2 ，然后term1比更有用term2为在此示例中的文档分类。

情感分类中的示例

主要出现在正面电影评论中而很少出现在负面评论中的单词包含较高的信息。 例如，电影评论中出现“壮丽”一词是该评论是肯定的有力指示。 这使“宏伟”成为一个信息丰富的词。

在python中计算熵和信息增益

测量熵和信息增益

公式来自互信息，在这种情况下，您可以将互信息视为术语t的存在为我们猜测类提供了多少信息。

检查： https ： //nlp.stanford.edu/IR-book/html/htmledition/mutual-information-1.html

如何在文本分类中找到信息增益？

[英]How to find Information gain in text classification?

用于特征选择文本分类的共同信息

[英]Mutual Information for feature selection text classification

什么是“熵和信息增益”？

[英]What is “entropy and information gain”?

是否可以用作者信息来补充朴素贝叶斯文本分类算法？

[英]Is it possible to supplement Naive Bayes text classification algorithm with author information?

如何为4个类别的文本分类创建训练数据

[英]How to create Training data for Text classification on 4 categories

如何创建训练集？ -文字分类

[英]How to create training set? - Text classification

TensorFlow文本分类示例-如何评估自己的文本？

[英]TensorFlow example for text classification - how to evaluate your own text?

如何将文本文档表示为文本分类的特征向量？

[英]How to represent text documents as feature vectors for text classification?

了解text（）的工作方式

[英]Understanding how text() works

使用MALLET进行文本分类

[英]Text Classification using MALLET

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在文本分类中找到信息增益？用于特征选择文本分类的共同信息什么是“熵和信息增益”？是否可以用作者信息来补充朴素贝叶斯文本分类算法？如何为4个类别的文本分类创建训练数据如何创建训练集？ -文字分类 TensorFlow文本分类示例-如何评估自己的文本？如何将文本文档表示为文本分类的特征向量？了解text（）的工作方式使用MALLET进行文本分类

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM