Python 熊猫：如何删除 nan 和 -inf 值

Question

我有以下数据框

           time       X    Y  X_t0     X_tp0  X_t1     X_tp1  X_t2     X_tp2
0         0.002876    0   10     0       NaN   NaN       NaN   NaN       NaN
1         0.002986    0   10     0       NaN     0       NaN   NaN       NaN
2         0.037367    1   10     1  1.000000     0       NaN     0       NaN
3         0.037374    2   10     2  0.500000     1  1.000000     0       NaN
4         0.037389    3   10     3  0.333333     2  0.500000     1  1.000000
5         0.037393    4   10     4  0.250000     3  0.333333     2  0.500000

....
1030308   9.962213  256  268   256  0.000000   256  0.003906   255  0.003922
1030309  10.041799    0  268     0      -inf   256  0.000000   256  0.003906
1030310  10.118960    0  268     0       NaN     0      -inf   256  0.000000

我尝试了以下

df.dropna(inplace=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40)

X_train = X_train.drop('time', axis=1)
X_train = X_train.drop('X_t1', axis=1)
X_train = X_train.drop('X_t2', axis=1)
X_test = X_test.drop('time', axis=1)
X_test = X_test.drop('X_t1', axis=1)
X_test = X_test.drop('X_t2', axis=1)
X_test.fillna(X_test.mean(), inplace=True)
X_train.fillna(X_train.mean(), inplace=True)
y_train.fillna(y_train.mean(), inplace=True)

但是，我仍然收到此错误ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 每当我尝试拟合回归模型fit(X_train, y_train)

我们如何同时删除NaN和-inf值？

Answer 1

使用pd.DataFrame.isin并检查是否有任何带有pd.DataFrame.any行。 最后，使用布尔数组对数据帧进行切片。

df[~df.isin([np.nan, np.inf, -np.inf]).any(1)]

             time    X    Y  X_t0     X_tp0   X_t1     X_tp1   X_t2     X_tp2
4        0.037389    3   10     3  0.333333    2.0  0.500000    1.0  1.000000
5        0.037393    4   10     4  0.250000    3.0  0.333333    2.0  0.500000
1030308  9.962213  256  268   256  0.000000  256.0  0.003906  255.0  0.003922

Answer 2

您可以将inf和-inf替换为NaN ，然后选择非空行。

df[df.replace([np.inf, -np.inf], np.nan).notnull().all(axis=1)]  # .astype(np.float64) ?

或

df.replace([np.inf, -np.inf], np.nan).dropna(axis=1)

通过df.info()检查您的列返回的类型以确保它们都符合预期（例如 np.float32/64 df.info() 。

Answer 3

df.replace([np.inf, -np.inf], np.nan)

df.dropna(inplace=True)

Answer 4

与其删除包含任何空值和无限数的行，不如将其逻辑颠倒过来更简洁，而是返回所有单元格都是有限数的行。 numpy isfinite 函数执行此操作，如果行中的所有单元格都是有限的，则 '.all(1)' 只会返回 TRUE。

df = df[np.isfinite(df).all(1)]

Answer 5

我更喜欢设置选项，以便将 inf 值计算为 nan；

s1 = pd.Series([0, 1, 2])
s2 = pd.Series([2, 1, 0])
s1/s2
# Outputs:
# 0.0
# 1.0
# inf
# dtype: float64

pd.set_option('mode.use_inf_as_na', True)
s1/s2
# Outputs:
# 0.0
# 1.0
# NaN
# dtype: float64

请注意，您还可以使用上下文；

with pd.option_context('mode.use_inf_as_na', True):
    print(s1/s2)
# Outputs:
# 0.0
# 1.0
# NaN
# dtype: float64

Answer 6

df.replace只替换第一次出现的值，因此错误

df = list(filter(lambda x: x!= inf, df))将删除所有出现的inf然后可以使用drop函数

Python 熊猫：如何删除 nan 和 -inf 值

问题描述

6 个解决方案

解决方案1
65 已采纳 2017-08-17 21:24:03

解决方案2
32 2017-08-17 21:42:44

解决方案3
16 2019-01-22 18:59:08

解决方案4
13 2019-02-13 12:04:31

解决方案5
1 2020-02-11 11:33:07

解决方案6
0 2020-01-25 04:16:50

Python 熊猫：如何删除 nan 和 -inf 值

问题描述

6 个解决方案

解决方案1 65 已采纳 2017-08-17 21:24:03

解决方案2 32 2017-08-17 21:42:44

解决方案3 16 2019-01-22 18:59:08

解决方案4 13 2019-02-13 12:04:31

解决方案5 1 2020-02-11 11:33:07

解决方案6 0 2020-01-25 04:16:50

解决方案1
65 已采纳 2017-08-17 21:24:03

解决方案2
32 2017-08-17 21:42:44

解决方案3
16 2019-01-22 18:59:08

解决方案4
13 2019-02-13 12:04:31

解决方案5
1 2020-02-11 11:33:07

解决方案6
0 2020-01-25 04:16:50