繁体   English   中英

如何在 sklearn 中为多类 svm model 格式化数据

[英]How to format data for a multiclass svm model in sklearn

我将我的训练数据按类别分成几个文件夹。 所以folder1是class1,有50多个关于该类别的数据文件等。我读了我的数据,我很困惑如何格式化它以使svm model具有正确的形状和一切。

我所做的总结:读入数据遍历每个文件夹和每个文件夹中的每个文件,并将每个数据框添加到列表中。 对于我遍历的每个文件,我将它分类为另一个列表的内容添加为 integer。

显然,这并没有在 model 中使用单个 dataframe ,那么我该如何格式化这个或者我应该做些什么呢?

拟合支持向量 model 所需的可能步骤

据我了解,您已经将数据分成不同的数据框了吗?

这对于.sklearn 来说不是必需的。 如何在不拆分为目标变量的情况下求解.sklearn.SVM 的示例(伪代码)

#伪代码

data = data.drop("classification")
classifcation = data["classifcation"]

来自官方纪录片:

clf = svm.SVC()
clf.fit(data, classifcation)

我认为这显然是一个分类问题。

我认为最好将数据保存在一个 Z6A8064B5DF4794555500553C47C55057DZ 中。 例如,您可以按照以下步骤操作。

  1. 这意味着首先您应该将分类目标变量转换为数值。 例如热编码? (还有其他可能性)。 更多信息:
    https://medium.com/analytics-vidhya/target-encoding-vs-one-hot-encoding-with-simple-examples-276a7e7b3e64;
    https://towardsdatascience.com/multiclass-classification-with-support-vector-machines-svm-kernel-trick-kernel-functions-f9d5377d6f02

  2. 如果变量记录在不同的度量中,则缩放相应的变量,例如 0-1(Min-Max Scaling)。

#Comment:根据数据集,可能需要进一步的步骤。

  1. 拟合支持向量算法官方文档中的更多信息:
    https://scikit-learn.org/stable/modules/svm.html

  2. 然后您可以使用 Sklearn(例如 Grid Search)和 CV 验证和测试信息)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM