使用Sci-kit Learn SVM时预测总是相同的

Question

我有一个数据集，试图从DNA构成中预测数据输入的是哪种DNA。 例如，字符串ATTAG...ACGAT可能会转换为EI 。 可能的输出是EI ， IE或N 该数据集可在此处进行进一步调查。 我尝试将内核从linear切换为rbf但结果相同。 SVM分类器似乎每次输出N 有什么想法吗？ 我是Sci-kit Learn的初学者。

import pandas as pd
# 3190 total
training_data = pd.read_csv('new_training.csv')
test_data = pd.read_csv('new_test.csv')
frames = [training_data, test_data]
data = pd.concat(frames)
x = data.iloc[:, 0:59]
y = data.iloc[:, 60]

x = pd.get_dummies(x)
train_x = x.iloc[0:3000, :]
train_y = y.iloc[0:3000]
test_x = x.iloc[3000:3190, :]
test_y = y.iloc[3000:3190]

from sklearn import svm
from sklearn import preprocessing

clf = svm.SVC(kernel="rbf")
label_encoder = preprocessing.LabelEncoder()
label_encoder.fit(y)

print(label_encoder.transform(train_y))
clf.fit(train_x, label_encoder.transform(train_y))

for u in train_y.unique():
    print(u)

predictions = clf.predict(test_x)

correct = 0
total = len(predictions)
for i in range(total):
    prediction = label_encoder.inverse_transform(predictions[i])
    print('predicted %s and actual %s' % (prediction, test_y[i]))
    print(len(prediction))
    if prediction == test_y[i]:
        correct += 1

print('correct %d out of %d' % (correct, total))

首先，我导入训练和测试数据，将其组合并分成x（输入）或y（输出标签）。 然后我将x转换为虚拟变量版本，从原来的60列转换为300〜列，因为每个DNA点可以是A ， T ， G ， C ，有时还可以是N 基本上，每个输入的所有可能输入都为0或1。 （有没有更好的方式来做到这一点？科幻Kit了解不支持绝对编码，我试图尽我所能，从这个。）然后我再次进行数据分开（我不得不合并，这样我可以生成整体上假人数据空间）。

从这里开始，我只运行svm内容以适合x和y标签，然后根据test_x进行预测。 我还必须编码/标记y ，从字符串版本到数字版本。 但是，是的，它总是产生N ，我觉得这是错误的。 我该如何解决？ 谢谢！

Answer 1

我认为问题在于将数据拆分为训练和测试的方式。 您已获取了前3000个样本进行培训，其余190个样本进行了测试。 我发现通过这种训练，分类器可以为所有测试样本生成真实的分类标签（得分 = 1.0）。 我还注意到，数据集的最后190个样本具有相同的类标签 ，即'N' 。 因此，您获得的结果是正确的。

我建议你通过拆分数据集为训练和测试ShuffleSplit与test_size=.06 （这大约相当于三千一百九十零分之一百九十○虽然使结果的可视化更容易我用test_size=.01下运行示例）。 为了简单起见，我还建议您使用OneHotEncoder对功能的分类值进行编码。

这是完整的代码（我已自由执行一些重构）：

import numpy as np
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import ShuffleSplit
from sklearn import svm

data = np.loadtxt(r'splice.data', delimiter=',', dtype='string')

bases = {'A': 0, 'C': 1, 'D': 2, 'G': 3, 'N': 4, 'R': 5, 'S': 6, 'T': 7}

X_base = np.asarray([[bases[c] for c in seq.strip()] for seq in data[:, 2]])
y_class = data[:, 0]

enc = OneHotEncoder(n_values=len(bases))
lb = LabelEncoder()

enc.fit(X_base)  
lb.fit(y_class)

X = enc.transform(X_base).toarray()
y = lb.transform(y_class)

rs = ShuffleSplit(n_splits=1, test_size=.01, random_state=0)
train_index, test_index = rs.split(X).next()
train_X, train_y = X[train_index], y[train_index]
test_X, test_y = X[test_index], y[test_index]

clf = svm.SVC(kernel="rbf")
clf.fit(train_X, train_y)

predictions = clf.predict(test_X)

演示：

Out[2]: 
array(['IE', 'EI', 'EI', 'EI', 'EI', 'IE', 'N', 'N', 'EI', 'N', 'N', 'IE',
       'IE', 'N', 'N', 'IE', 'EI', 'N', 'N', 'EI', 'IE', 'EI', 'IE', 'N',
       'EI', 'N', 'IE', 'N', 'EI', 'N', 'N', 'EI'], 
      dtype='|S79')

In [3]: y_class[test_index]
Out[3]: 
array(['IE', 'EI', 'EI', 'EI', 'EI', 'IE', 'N', 'N', 'EI', 'N', 'N', 'IE',
       'IE', 'N', 'N', 'IE', 'EI', 'N', 'N', 'EI', 'IE', 'EI', 'IE', 'N',
       'IE', 'N', 'IE', 'N', 'EI', 'N', 'N', 'EI'], 
      dtype='|S79')

In [4]: clf.score(test_X, test_y)
Out[4]: 0.96875

注意：请确保您的sklearn版本为0.18.1，否则上面的代码可能不起作用。

使用Sci-kit Learn SVM时预测总是相同的

问题描述

1 个解决方案

解决方案1
2 已采纳 2017-02-03 16:35:09

使用Sci-kit Learn SVM时预测总是相同的

问题描述

1 个解决方案

解决方案1 2 已采纳 2017-02-03 16:35:09

解决方案1
2 已采纳 2017-02-03 16:35:09