LogisticRegression：未知標簽類型：在 python 中使用 sklearn 的“連續”

Question

我有以下代碼來測試 sklearn python 庫的一些最流行的機器學習算法：

import numpy as np
from sklearn                        import metrics, svm
from sklearn.linear_model           import LinearRegression
from sklearn.linear_model           import LogisticRegression
from sklearn.tree                   import DecisionTreeClassifier
from sklearn.neighbors              import KNeighborsClassifier
from sklearn.discriminant_analysis  import LinearDiscriminantAnalysis
from sklearn.naive_bayes            import GaussianNB
from sklearn.svm                    import SVC

trainingData    = np.array([ [2.3, 4.3, 2.5],  [1.3, 5.2, 5.2],  [3.3, 2.9, 0.8],  [3.1, 4.3, 4.0]  ])
trainingScores  = np.array( [3.4, 7.5, 4.5, 1.6] )
predictionData  = np.array([ [2.5, 2.4, 2.7],  [2.7, 3.2, 1.2] ])

clf = LinearRegression()
clf.fit(trainingData, trainingScores)
print("LinearRegression")
print(clf.predict(predictionData))

clf = svm.SVR()
clf.fit(trainingData, trainingScores)
print("SVR")
print(clf.predict(predictionData))

clf = LogisticRegression()
clf.fit(trainingData, trainingScores)
print("LogisticRegression")
print(clf.predict(predictionData))

clf = DecisionTreeClassifier()
clf.fit(trainingData, trainingScores)
print("DecisionTreeClassifier")
print(clf.predict(predictionData))

clf = KNeighborsClassifier()
clf.fit(trainingData, trainingScores)
print("KNeighborsClassifier")
print(clf.predict(predictionData))

clf = LinearDiscriminantAnalysis()
clf.fit(trainingData, trainingScores)
print("LinearDiscriminantAnalysis")
print(clf.predict(predictionData))

clf = GaussianNB()
clf.fit(trainingData, trainingScores)
print("GaussianNB")
print(clf.predict(predictionData))

clf = SVC()
clf.fit(trainingData, trainingScores)
print("SVC")
print(clf.predict(predictionData))

前兩個工作正常，但在LogisticRegression調用中出現以下錯誤：

root@ubupc1:/home/ouhma# python stack.py 
LinearRegression
[ 15.72023529   6.46666667]
SVR
[ 3.95570063  4.23426243]
Traceback (most recent call last):
  File "stack.py", line 28, in <module>
    clf.fit(trainingData, trainingScores)
  File "/usr/local/lib/python2.7/dist-packages/sklearn/linear_model/logistic.py", line 1174, in fit
    check_classification_targets(y)
  File "/usr/local/lib/python2.7/dist-packages/sklearn/utils/multiclass.py", line 172, in check_classification_targets
    raise ValueError("Unknown label type: %r" % y_type)
ValueError: Unknown label type: 'continuous'

輸入數據與之前調用中的相同，那么這里發生了什么？

順便說一下，為什么LinearRegression()和SVR()算法的第一次預測會有巨大差異(15.72 vs 3.95) ？

Answer 1

您將浮點數傳遞給分類器，該分類器將分類值作為目標向量。 如果您將其轉換為int ，它將被接受為輸入（盡管如果這是正確的做法，那將是有問題的）。

最好使用 scikit 的labelEncoder函數轉換您的訓練分數。

您的 DecisionTree 和 KNeighbors 限定符也是如此。

from sklearn import preprocessing
from sklearn import utils

lab_enc = preprocessing.LabelEncoder()
encoded = lab_enc.fit_transform(trainingScores)
>>> array([1, 3, 2, 0], dtype=int64)

print(utils.multiclass.type_of_target(trainingScores))
>>> continuous

print(utils.multiclass.type_of_target(trainingScores.astype('int')))
>>> multiclass

print(utils.multiclass.type_of_target(encoded))
>>> multiclass

Answer 2

在嘗試將浮點數提供給分類器時，我遇到了同樣的問題。 為了准確起見，我想保留浮點數而不是整數。 嘗試使用回歸算法。 例如：

import numpy as np
from sklearn import linear_model
from sklearn import svm

classifiers = [
    svm.SVR(),
    linear_model.SGDRegressor(),
    linear_model.BayesianRidge(),
    linear_model.LassoLars(),
    linear_model.ARDRegression(),
    linear_model.PassiveAggressiveRegressor(),
    linear_model.TheilSenRegressor(),
    linear_model.LinearRegression()]

trainingData    = np.array([ [2.3, 4.3, 2.5],  [1.3, 5.2, 5.2],  [3.3, 2.9, 0.8],  [3.1, 4.3, 4.0]  ])
trainingScores  = np.array( [3.4, 7.5, 4.5, 1.6] )
predictionData  = np.array([ [2.5, 2.4, 2.7],  [2.7, 3.2, 1.2] ])

for item in classifiers:
    print(item)
    clf = item
    clf.fit(trainingData, trainingScores)
    print(clf.predict(predictionData),'\n')

Answer 3

LogisticRegression不是用於回歸而是用於分類！

Y變量必須是分類類別，

（例如0或1 ）

而不是continuous變量，

那將是一個回歸問題。

LogisticRegression：未知標簽類型：在 python 中使用 sklearn 的“連續”

問題描述

3 個解決方案

解決方案1
93 已采納 2017-01-29 21:06:20

解決方案2
30 2017-12-23 08:18:19

解決方案3
30 2019-11-25 17:37:34

LogisticRegression：未知標簽類型：在 python 中使用 sklearn 的“連續”

問題描述

3 個解決方案

解決方案1 93 已采納 2017-01-29 21:06:20

解決方案2 30 2017-12-23 08:18:19

解決方案3 30 2019-11-25 17:37:34

解決方案1
93 已采納 2017-01-29 21:06:20

解決方案2
30 2017-12-23 08:18:19

解決方案3
30 2019-11-25 17:37:34