如何使用 Python Numpy 中的 train_test_split 将数据拆分为训练、测试和验证数据集？分裂不应该是随机的

Question

我想将数据类别明智地拆分为训练、测试和验证集。 例如：如果我们在数据集中有 3 个类别正面、负面和中性。 正面类别分为训练、测试和验证。 与其他两个类别相同。 拆分率是 80% 的数据用于训练，20% 用于测试。 从 80% 的训练数据中，拆分 10% 用于验证数据。 但最重要的拆分数据不应该是随机的。

Answer 1

您可以使用stratify参数来执行此操作：

例如：如果您要使用 Iris 数据集来执行此操作。

from sklearn import cross_validation, datasets 

X = iris.data[:,:2]
y = iris.target

cross_validation.train_test_split(X,y,stratify=y)

您可以在此处阅读更多信息： https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

如何使用 Python Numpy 中的 train_test_split 将数据拆分为训练、测试和验证数据集？分裂不应该是随机的

问题描述

1 个解决方案

解决方案1
0 2019-11-21 08:19:21

如何使用 Python Numpy 中的 train_test_split 将数据拆分为训练、测试和验证数据集？ 分裂不应该是随机的

问题描述

1 个解决方案

解决方案1 0 2019-11-21 08:19:21

如何使用 Python Numpy 中的 train_test_split 将数据拆分为训练、测试和验证数据集？分裂不应该是随机的

解决方案1
0 2019-11-21 08:19:21