繁体 English 中英

mahout中StandardNaiveBayesClassifier和ComplementaryNaiveBayesClassifier之间的差异

[英]Differences between StandardNaiveBayesClassifier and ComplementaryNaiveBayesClassifier in mahout

原文 2013-12-20 00:16:46 2 3 algorithm/ machine-learning/ mahout

也许我的问题很复杂，但我想知道Mahout StandardNaiveBayesClassifier和ComplementaryNaiveBayesClassifier算法之间的主要区别。 哪一个在较少量的训练数据上表现较好，或者是数据相关问题？ 哪一个更适合情绪分析？ 还有一些其他的aspecs ......

先感谢您！

3 个解决方案

补充朴素贝叶斯是一种天真的贝叶斯变体，当训练集中的类不平衡时，它往往比香草版更好。 总之，它估计每个Y类基于y的补充，即在所有其它类样本特征的概率，而不是在类的训练样本y本身。

Compliment Naive Bayes（CNB）分类器通过估计除我们正在评估的情感类别之外的所有情绪类别中的数据的参数来改进朴素贝叶斯分类器的弱点。

1）即使NaïveBayes的表现良好，它也会产生一些糟糕的假设，例如数据独立性和特定类别的不均匀训练数据（偏斜数据）。 2）补充NaïveBayes是NaïveBayes变体之一，它解决了父母NaïveBayes分类器所做的不良假设，例如不均匀训练大小（训练数据中最常出现的类在实际分类中占主导地位）和独立性（所有特征或属性）单独处理假设。假设数据是指一个类别的训练样本多于另一个类别，这导致决策边界权重有偏差。 这反过来又导致分类器无意中偏好一个类而不是另一个类。 为了解决这个问题，补充NaïveBayes提出了一个概率估计参数，它使用除c之外的所有类的数据