Scikit-learn：輸入包含 NaN、無窮大或對於 dtype ('float64') 來說太大的值

Question

我正在使用 Python scikit-learn 對從 csv 獲得的數據進行簡單的線性回歸。

reader = pandas.io.parsers.read_csv("data/all-stocks-cleaned.csv")
stock = np.array(reader)

openingPrice = stock[:, 1]
closingPrice = stock[:, 5]

print((np.min(openingPrice)))
print((np.min(closingPrice)))
print((np.max(openingPrice)))
print((np.max(closingPrice)))

peningPriceTrain, openingPriceTest, closingPriceTrain, closingPriceTest = \
    train_test_split(openingPrice, closingPrice, test_size=0.25, random_state=42)


openingPriceTrain = np.reshape(openingPriceTrain,(openingPriceTrain.size,1))

openingPriceTrain = openingPriceTrain.astype(np.float64, copy=False)
# openingPriceTrain = np.arange(openingPriceTrain, dtype=np.float64)

closingPriceTrain = np.reshape(closingPriceTrain,(closingPriceTrain.size,1))
closingPriceTrain = closingPriceTrain.astype(np.float64, copy=False)

openingPriceTest = np.reshape(openingPriceTest,(openingPriceTest.size,1))
closingPriceTest = np.reshape(closingPriceTest,(closingPriceTest.size,1))

regression = linear_model.LinearRegression()

regression.fit(openingPriceTrain, closingPriceTrain)

predicted = regression.predict(openingPriceTest)

最小值和最大值顯示為 0.0 0.6 41998.0 2593.9

然而我收到這個錯誤 ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

我應該如何消除這個錯誤？ 因為從上面的結果來看，它確實不包含無窮大或 Nan 值。

對此有什么解決方案？

編輯：all-stocks-cleaned.csv 在http://www.sharecsv.com/s/cb31790afc9b9e33c5919cdc562630f3/all-stocks-cleaned.csv可用

Answer 1

您回歸的問題在於NaN不知何故潛入了您的數據。 這可以使用以下代碼片段輕松檢查：

import pandas as pd
import numpy as np
from  sklearn import linear_model
from sklearn.cross_validation import train_test_split

reader = pd.io.parsers.read_csv("./data/all-stocks-cleaned.csv")
stock = np.array(reader)

openingPrice = stock[:, 1]
closingPrice = stock[:, 5]

openingPriceTrain, openingPriceTest, closingPriceTrain, closingPriceTest = \
    train_test_split(openingPrice, closingPrice, test_size=0.25, random_state=42)

openingPriceTrain = openingPriceTrain.reshape(openingPriceTrain.size,1)
openingPriceTrain = openingPriceTrain.astype(np.float64, copy=False)

closingPriceTrain = closingPriceTrain.reshape(closingPriceTrain.size,1)
closingPriceTrain = closingPriceTrain.astype(np.float64, copy=False)

openingPriceTest = openingPriceTest.reshape(openingPriceTest.size,1)
openingPriceTest = openingPriceTest.astype(np.float64, copy=False)

np.isnan(openingPriceTrain).any(), np.isnan(closingPriceTrain).any(), np.isnan(openingPriceTest).any()

(True, True, True)

如果您嘗試輸入缺失值，如下所示：

openingPriceTrain[np.isnan(openingPriceTrain)] = np.median(openingPriceTrain[~np.isnan(openingPriceTrain)])
closingPriceTrain[np.isnan(closingPriceTrain)] = np.median(closingPriceTrain[~np.isnan(closingPriceTrain)])
openingPriceTest[np.isnan(openingPriceTest)] = np.median(openingPriceTest[~np.isnan(openingPriceTest)])

您的回歸將順利運行，沒有問題：

regression = linear_model.LinearRegression()

regression.fit(openingPriceTrain, closingPriceTrain)

predicted = regression.predict(openingPriceTest)

predicted[:5]

array([[ 13598.74748173],
       [ 53281.04442146],
       [ 18305.4272186 ],
       [ 50753.50958453],
       [ 14937.65782778]])

簡而言之：正如錯誤消息所說，您的數據中存在缺失值。

編輯：：

也許一種更簡單、更直接的方法是在使用 Pandas 讀取數據后立即檢查是否有任何丟失的數據：

data = pd.read_csv('./data/all-stocks-cleaned.csv')
data.isnull().any()
Date                    False
Open                     True
High                     True
Low                      True
Last                     True
Close                    True
Total Trade Quantity     True
Turnover (Lacs)          True

然后使用以下兩行中的任何一行來估算數據：

data = data.fillna(lambda x: x.median())

或者

data = data.fillna(method='ffill')

Scikit-learn：輸入包含 NaN、無窮大或對於 dtype ('float64') 來說太大的值

問題描述

1 個解決方案

解決方案1
37 已采納 2016-01-14 13:17:09

Scikit-learn：輸入包含 NaN、無窮大或對於 dtype (&#39;float64&#39;) 來說太大的值

問題描述

1 個解決方案

解決方案1 37 已采納 2016-01-14 13:17:09

Scikit-learn：輸入包含 NaN、無窮大或對於 dtype ('float64') 來說太大的值

解決方案1
37 已采納 2016-01-14 13:17:09