Python中Float錯誤的文字無效

Question

我正在嘗試使用sklearn並使用sklearn庫在Python中執行線性回歸。

這是我用來訓練和擬合模型的代碼，當我運行預測函數調用時，我收到錯誤。

train, test = train_test_split(h1, test_size = 0.5, random_state=0)

my_features = ['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'zipcode']
trainInp = train[my_features]

target = ['price']
trainOut = train[target]

regr = LinearRegression()

# Train the model using the training sets

regr.fit(trainInp, trainOut)

print('Coefficients: \n', regr.coef_)

testPred = regr.predict(test)

在擬合模型之后，當我嘗試使用測試數據進行預測時，它會拋出以下錯誤

Traceback (most recent call last):
  File "C:/Users/gouta/PycharmProjects/MLCourse1/Python.py", line 52, in <module>
    testPred = regr.predict(test)
  File "C:\Users\gouta\Anaconda2\lib\site-packages\sklearn\linear_model\base.py", line 200, in predict
    return self._decision_function(X)
  File "C:\Users\gouta\Anaconda2\lib\site-packages\sklearn\linear_model\base.py", line 183, in _decision_function
    X = check_array(X, accept_sparse=['csr', 'csc', 'coo'])
  File "C:\Users\gouta\Anaconda2\lib\site-packages\sklearn\utils\validation.py", line 393, in check_array
    array = array.astype(np.float64)
ValueError: invalid literal for float(): 20140604T000000

線性回歸模型的系數是

('Coefficients: \n', array([[ -5.04902429e+04,   5.23550164e+04,   2.90631319e+02,
         -1.19010351e-01,  -1.25257545e+04,   6.52414059e+02]]))

以下是測試數據集的前五行

錯誤是由於系數值大而引起的嗎？ 如何解決這個問題？

Answer 1

你的問題是你在整個數據trainInp = train[my_features]選擇一組特征上的模型（你做trainInp = train[my_features] ），但是你試圖預測完整的特征集（ regr.predict(test) ），包括date等非數字功能。

因此，不應該執行regr.predict(test) ，而應該執行regr.predict(test[my_features]) 。 更一般地說，請記住，無論您對訓練集應用哪些預處理（標准化，特征選擇，PCA，......），您都應該應用於測試集。

或者，您可以在進行列車測試分割之前減少所關注的特征集：

my_features = ['bedrooms', 'bathrooms', ...]
train, test = train_test_split(h1[my_features], test_size = 0.5, random_state=0)

Python中Float錯誤的文字無效

問題描述

1 個解決方案

解決方案1
3 已采納 2016-02-18 20:06:38

Python中Float錯誤的文字無效

問題描述

1 個解決方案

解決方案1 3 已采納 2016-02-18 20:06:38

解決方案1
3 已采納 2016-02-18 20:06:38