如何在 sklearn 中为多类 svm model 格式化数据

Question

我将我的训练数据按类别分成几个文件夹。 所以folder1是class1，有50多个关于该类别的数据文件等。我读了我的数据，我很困惑如何格式化它以使svm model具有正确的形状和一切。

我所做的总结：读入数据遍历每个文件夹和每个文件夹中的每个文件，并将每个数据框添加到列表中。 对于我遍历的每个文件，我将它分类为另一个列表的内容添加为 integer。

显然，这并没有在 model 中使用单个 dataframe ，那么我该如何格式化这个或者我应该做些什么呢？

Answer 1

拟合支持向量 model 所需的可能步骤

据我了解，您已经将数据分成不同的数据框了吗？

这对于.sklearn 来说不是必需的。 如何在不拆分为目标变量的情况下求解.sklearn.SVM 的示例（伪代码）

#伪代码

data = data.drop("classification")
classifcation = data["classifcation"]

来自官方纪录片：

clf = svm.SVC()
clf.fit(data, classifcation)

我认为这显然是一个分类问题。

我认为最好将数据保存在一个 Z6A8064B5DF4794555500553C47C55057DZ 中。 例如，您可以按照以下步骤操作。

这意味着首先您应该将分类目标变量转换为数值。 例如热编码？ （还有其他可能性）。 更多信息：
https://medium.com/analytics-vidhya/target-encoding-vs-one-hot-encoding-with-simple-examples-276a7e7b3e64；
https://towardsdatascience.com/multiclass-classification-with-support-vector-machines-svm-kernel-trick-kernel-functions-f9d5377d6f02
如果变量记录在不同的度量中，则缩放相应的变量，例如 0-1（Min-Max Scaling）。

#Comment：根据数据集，可能需要进一步的步骤。