ValueError：未知 label 类型：DecisionTreeClassifier() 中的“连续”

Question

我正在尝试创建一个 model 来预测下面的结果列：

    Date    Open    High    Close   Result
1/22/2010   25.95   31.29   30.89   0.176104
2/19/2010   23.98   24.22   23.60   -0.343760
3/19/2010   21.46   23.16   22.50   0.124994
4/23/2010   21.32   21.77   21.06   -0.765601
5/21/2010   55.41   55.85   49.06   0.302556

我正在使用的代码是：

import pandas
from sklearn.tree import DecisionTreeClassifier
dataset = pandas.read_csv('data.csv')
X = dataset.drop(columns=['Date','Result'])
y = dataset.drop(columns=['Date', 'Open', 'High', 'Close'])
model = DecisionTreeClassifier()
model.fit(X, y)

但我收到一个错误：

ValueError: Unknown label type: 'continuous'

也欢迎使用其他算法的建议。

Answer 1

在 ML 中，首先要考虑问题的性质，这一点很重要。 是回归问题还是分类问题？ 您是否有目标数据（监督学习），或者这是您没有目标并想更多地了解数据的固有结构（例如无监督学习）的问题。 然后，考虑您需要在管道中采取哪些步骤来准备数据（预处理）。

在这种情况下，您将浮点数（浮点数）传递给分类器（DecisionTreeClassifier）。 这样做的问题是分类器通常将不同的类分开，因此该分类器需要一个string或integer类型来区分不同的类（这被称为“目标”）。 您可以在分类器简介中了解更多相关信息。

您要解决的问题是确定一个连续的数值 output, Result 。 这被称为回归问题，因此您需要使用回归算法（例如DecisionTreeRegressor ）。 一旦你有了这个简单的回归算法，你就可以尝试其他回归算法，这是一个很好的起点，因为它是一个相当简单易懂的算法，它相当透明，速度快，易于实现 - 所以决策树是起点的绝佳选择！

作为进一步说明，重要的是要考虑预处理您的数据。 您只需将目标与输入数据分开即可完成其中的一些操作：

X = dataset.drop(columns=['Date','Result'])
y = dataset.drop(columns=['Date', 'Open', 'High', 'Close'])

但是，您可能希望进一步研究预处理，特别是数据的标准化。 这通常是您实施的任何 ML 算法都必须执行的步骤，以便能够解释您的数据。 有句话叫：“垃圾进，垃圾出”。

预处理的一部分有时需要您更改给定列的数据类型。 从表面上看，您的问题中发布的错误导致人们认为手头的问题是您需要更改数据类型。 但是，正如所解释的，在您的问题的情况下，这样做无济于事，因为您寻求使用回归来确定连续的 output。

Answer 2

您正在使用DecisionTreeClassifier它是一个分类器，只会预测分类值，例如0或1 ，但您的Result列是连续的，因此您应该使用DecisionTreeRegressor

Answer 3

几点建议

你的方法是一个很好的尝试，但我认为这不是正确的方法。
在 ML 建模中，主要有 3 类模型
1. 回归：你有牛顿定律的负责人吗？ 这些是有助于识别数据中隐藏规则和逻辑的 ML 模型。
2. 分类：这些是 ML 模型的类型，用于将数据分成不同的类别。
3. 时间序列 ML 模型：这就像股票市场数据分析。 与上面不同的是，这里在日期 X 的值取决于 X-1、X-2、X-3 等等..on。 这是一些更接近Regression的东西，但这些需要像 ARIMA 一样的 model。

至于错误， DecisionTreeClassifier应该用于识别 1、2、3、4 等类别，但仅限于一组限制类。

对于像Results这样的连续和分数系列，您应该使用回归模型或 ARIMA 时间序列 ML 模型。

ValueError：未知 label 类型：DecisionTreeClassifier() 中的“连续”

问题描述

3 个解决方案

解决方案1
6 已采纳 2020-12-27 08:07:47

解决方案2
3 2020-12-27 07:54:36

解决方案3
1 2020-12-27 08:10:17

ValueError：未知 label 类型：DecisionTreeClassifier() 中的“连续”

问题描述

3 个解决方案

解决方案1 6 已采纳 2020-12-27 08:07:47

解决方案2 3 2020-12-27 07:54:36

解决方案3 1 2020-12-27 08:10:17

解决方案1
6 已采纳 2020-12-27 08:07:47

解决方案2
3 2020-12-27 07:54:36

解决方案3
1 2020-12-27 08:10:17