從 dataframe 中刪除異常值和周圍數據

Question

我有一個數據集，其中包含一些我想刪除的異常值。 我想刪除下面顯示的數據框中的 0 值：

df = pd.DataFrame({'Time': [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9], 'data': [1.1, 1.05, 1.01, 1.05, 0, 1.2, 1.1, 1.08, 1.07, 1.1]})

我可以這樣做以刪除低於某個閾值的值：

df.loc[df['data'] < 0.5, 'data'] = np.NaN

這給我一個沒有“0”值的列表：

   Time  data
0   0.0  1.10
1   0.1  1.05
2   0.2  1.01
3   0.3  1.05
4   0.4   NaN
5   0.5  1.20
6   0.6  1.10
7   0.7  1.08
8   0.8  1.07
9   0.9  1.10

但是，我也對圍繞無效值的數據持懷疑態度，並希望從異常值中刪除“0.2”時間單位的值。 如下所示：

   Time  data
0   0.0  1.10
1   0.1  1.05
2   0.2   NaN
3   0.3   NaN
4   0.4   NaN
5   0.5   NaN
6   0.6   NaN
7   0.7  1.08
8   0.8  1.07
9   0.9  1.10

Answer 1

您可以獲得所有測量值錯誤的時間點的列表，並過濾所有附近的時間值：

bad_times = df.Time[df['data'] < 0.5]

for t in bad_times:
    df.loc[(df['Time'] - t).abs() <= 0.2, 'data'] = np.NaN

結果：

>>> print(df)
   Time  data
0   0.0  1.10
1   0.1  1.05
2   0.2   NaN
3   0.3   NaN
4   0.4   NaN
5   0.5   NaN
6   0.6   NaN
7   0.7  1.08
8   0.8  1.07
9   0.9  1.10

Answer 2

您可以獲取要刪除的時間列表，然后為這些行應用 nan。

df.loc[df['data'] < 0.5, 'data'] = np.NaN
l=df[df['data'].isna()]['Time'].values
l2=[]
for i in l:
    l2=l2+[round(i-0.1,1),round(i-0.2,1),round(i+0.1,1),round(i+0.2,1)]
df.loc[df['Time'].isin(l2), 'data'] = np.nan

從 dataframe 中刪除異常值和周圍數據

問題描述

2 個解決方案

解決方案1
1 已采納 2019-10-11 11:12:28

解決方案2
1 2019-10-11 11:18:44

從 dataframe 中刪除異常值和周圍數據

問題描述

2 個解決方案

解決方案1 1 已采納 2019-10-11 11:12:28

解決方案2 1 2019-10-11 11:18:44

解決方案1
1 已采納 2019-10-11 11:12:28

解決方案2
1 2019-10-11 11:18:44