在python中使用BernoulliNB（朴素贝叶斯分类器）scikit-learn的简单例子无法解释分类

Question

使用scikit-learn 0.10

为什么以下简单的代码片段：

from sklearn.naive_bayes import *

import sklearn
from sklearn.naive_bayes import *

print sklearn.__version__

X = np.array([ [1, 1, 1, 1, 1], 
               [0, 0, 0, 0, 0] ])
print "X: ", X
Y = np.array([ 1, 2 ])
print "Y: ", Y

clf = BernoulliNB()
clf.fit(X, Y)
print "Prediction:", clf.predict( [0, 0, 0, 0, 0] )

打印出“1”的答案？ 在[0,0,0,0,0] => 2训练模型后，我期待“2”作为答案。

为什么用Y替换Y.

Y = np.array([ 3, 2 ])

给一个不同的类“2”作为答案（正确的）？ 这不仅仅是一个类标签吗？

有人可以对此有所了解吗？

Answer 1

默认情况下，alpha，平滑参数为1。 正如msw所说，你的训练集非常小。 由于平滑，不会留下任何信息。 如果将alpha设置为非常小的值，则应该看到预期的结果。

Answer 2

您的训练集太小，可以显示

clf.predict_proba(X)

产量

array([[ 0.5,  0.5],
       [ 0.5,  0.5]])

这表明分类器将所有分类视为等概率。 与BernoulliNB文档中显示的样本进行比较，其中predict_proba()产生：

array([[ 2.71828146,  1.00000008,  1.00000004,  1.00000002,  1.        ],
       [ 1.00000006,  2.7182802 ,  1.00000004,  1.00000042,  1.00000007],
       [ 1.00000003,  1.00000005,  2.71828149,  1.        ,  1.00000003],
       [ 1.00000371,  1.00000794,  1.00000008,  2.71824811,  1.00000068],
       [ 1.00000007,  1.0000028 ,  1.00000149,  2.71822455,  1.00001671],
       [ 1.        ,  1.00000007,  1.00000003,  1.00000027,  2.71828083]])

我将numpy.exp()应用于结果以使其更具可读性。 显然，概率甚至不接近相等，实际上很好地对训练集进行了分类。

在python中使用BernoulliNB（朴素贝叶斯分类器）scikit-learn的简单例子无法解释分类

问题描述

2 个解决方案

解决方案1
8 2012-08-05 11:49:14

解决方案2
5 2012-08-04 12:30:54

在python中使用BernoulliNB（朴素贝叶斯分类器）scikit-learn的简单例子无法解释分类

问题描述

2 个解决方案

解决方案1 8 2012-08-05 11:49:14

解决方案2 5 2012-08-04 12:30:54

解决方案1
8 2012-08-05 11:49:14

解决方案2
5 2012-08-04 12:30:54