如何在带有朴素贝叶斯分类器和NLTK的scikit中使用k-fold交叉验证

Question

我有一个小语料库，我想用10倍交叉验证来计算朴素贝叶斯分类器的准确性，怎么做呢。

Answer 1

您可以选择自己设置或使用NLTK-Trainer之类的东西，因为NLTK 不直接支持机器学习算法的交叉验证。

我建议可能只是使用另一个模块为你做这个，但如果你真的想编写自己的代码，你可以做类似以下的事情。

假设您需要10倍 ，则必须将训练集划分为10个子集，在9/10训练，在剩余的1/10上进行测试，并对每个子集组合（ 10 ）执行此操作。

假设你的训练集在一个名为training的列表中，一个简单的方法就是，

num_folds = 10
subset_size = len(training)/num_folds
for i in range(num_folds):
    testing_this_round = training[i*subset_size:][:subset_size]
    training_this_round = training[:i*subset_size] + training[(i+1)*subset_size:]
    # train using training_this_round
    # evaluate against testing_this_round
    # save accuracy

# find mean accuracy over all rounds

Answer 2

实际上，不需要在最受欢迎的答案中提供的长循环迭代。 分类器的选择也是无关紧要的（它可以是任何分类器）。

Scikit提供了cross_val_score ，它可以完成所有循环。

from sklearn.cross_validation import KFold, cross_val_score
k_fold = KFold(len(y), n_folds=10, shuffle=True, random_state=0)
clf = <any classifier>
print cross_val_score(clf, X, y, cv=k_fold, n_jobs=1)

Answer 3

我使用了两个库和NLTK for naivebayes sklearn进行交叉验证，如下所示：

import nltk
from sklearn import cross_validation
training_set = nltk.classify.apply_features(extract_features, documents)
cv = cross_validation.KFold(len(training_set), n_folds=10, indices=True, shuffle=False, random_state=None, k=None)

for traincv, testcv in cv:
    classifier = nltk.NaiveBayesClassifier.train(training_set[traincv[0]:traincv[len(traincv)-1]])
    print 'accuracy:', nltk.classify.util.accuracy(classifier, training_set[testcv[0]:testcv[len(testcv)-1]])

最后我计算了平均准确度

Answer 4

修改了第二个答案：

cv = cross_validation.KFold(len(training_set), n_folds=10, shuffle=True, random_state=None)

Answer 5

灵感来自Jared的回答，这是一个使用生成器的版本：

def k_fold_generator(X, y, k_fold):
    subset_size = len(X) / k_fold  # Cast to int if using Python 3
    for k in range(k_fold):
        X_train = X[:k * subset_size] + X[(k + 1) * subset_size:]
        X_valid = X[k * subset_size:][:subset_size]
        y_train = y[:k * subset_size] + y[(k + 1) * subset_size:]
        y_valid = y[k * subset_size:][:subset_size]

        yield X_train, y_train, X_valid, y_valid

我假设您的数据集X有N个数据点（在示例中= 4）和D个特征（在示例中= 2）。 关联的N个标签存储在y 。

X = [[ 1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 0, 1, 1]
k_fold = 2

for X_train, y_train, X_valid, y_valid in k_fold_generator(X, y, k_fold):
    # Train using X_train and y_train
    # Evaluate using X_valid and y_valid

如何在带有朴素贝叶斯分类器和NLTK的scikit中使用k-fold交叉验证

问题描述

5 个解决方案

解决方案1
26 2013-05-04 22:32:47

解决方案2
21 2016-08-02 03:20:11

解决方案3
14 2013-05-05 20:27:04

解决方案4
1 2015-06-28 14:25:36

解决方案5
1 2016-01-07 16:02:48

如何在带有朴素贝叶斯分类器和NLTK的scikit中使用k-fold交叉验证

问题描述

5 个解决方案

解决方案1 26 2013-05-04 22:32:47

解决方案2 21 2016-08-02 03:20:11

解决方案3 14 2013-05-05 20:27:04

解决方案4 1 2015-06-28 14:25:36

解决方案5 1 2016-01-07 16:02:48

解决方案1
26 2013-05-04 22:32:47

解决方案2
21 2016-08-02 03:20:11

解决方案3
14 2013-05-05 20:27:04

解决方案4
1 2015-06-28 14:25:36

解决方案5
1 2016-01-07 16:02:48