StandardScaler -ValueError：輸入包含NaN，無窮大或對於dtype（'float64'）而言太大的值

Question

我有以下代碼

X = df_X.as_matrix(header[1:col_num])
scaler = preprocessing.StandardScaler().fit(X)
X_nor = scaler.transform(X)

並得到以下錯誤：

  File "/Users/edamame/Library/python_virenv/lib/python2.7/site-packages/sklearn/utils/validation.py", line 54, in _assert_all_finite
    " or a value too large for %r." % X.dtype)
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

我用了：

print(np.isinf(X))
print(np.isnan(X))

這給了我下面的輸出。 因為我有數百萬行，所以這不能真正告訴我哪個元素有問題。

[[False False False ..., False False False]
 [False False False ..., False False False]
 [False False False ..., False False False]
 ..., 
 [False False False ..., False False False]
 [False False False ..., False False False]
 [False False False ..., False False False]]

有沒有辦法確定矩陣X中的哪個值實際上導致了問題？ 人們一般如何避免使用它？

Answer 1

numpy包含針對此類事物的各種邏輯元素測試。

在您的特定情況下，您將要使用isinf和isnan 。

回應您的編輯：

您可以將np.isinf（）或np.isnan（）的結果傳遞給np.where（），這將返回條件為true的索引。 這是一個簡單的示例：

import numpy as np

test = np.array([0.1, 0.3, float("Inf"), 0.2])

bad_indices = np.where(np.isinf(test))

print(bad_indices)

然后，您可以使用這些索引來替換數組的內容：

test[bad_indices] = -1

StandardScaler -ValueError：輸入包含NaN，無窮大或對於dtype（'float64'）而言太大的值

問題描述

1 個解決方案

解決方案1
6 已采納 2016-04-10 16:44:19

StandardScaler -ValueError：輸入包含NaN，無窮大或對於dtype（&#39;float64&#39;）而言太大的值

問題描述

1 個解決方案

解決方案1 6 已采納 2016-04-10 16:44:19

StandardScaler -ValueError：輸入包含NaN，無窮大或對於dtype（'float64'）而言太大的值

解決方案1
6 已采納 2016-04-10 16:44:19