如何在 pandas dataframe 中查找每一行的頂列值

Question

對於具有m列的給定 dataframe（假設m = 10），在每一行中，我試圖找到前n列值（假設n = 2）。 在為每一行找到這些前n值之后，我想將該行中剩余的列值（總共m - n ）分配給 0。

例如，從第一個表中提到的值的 dataframe 開始，我嘗試使用前面討論的過濾選項創建第一個表的表示。 如果超過n列具有相同的值，則優先考慮較低的列索引號

| col_A | col_B | col_C | col_D | col_E |
|-------|-------|-------|-------|-------|
| 0.1   | 0.1   | 0.3   | 0.4   | 0.5   |
| 0.06  | 0.1   | 0.1   | 0.1   | 0.01  |
| 0.24  | 0.24  | 0.24  | 0.24  | 0.24  |
| 0.20  | 0.25  | 0.30  | 0.12  | 0.02  |

| col_A | col_B | col_C | col_D | col_E |
|-------|-------|-------|-------|-------|
| 0     | 0     | 0     | 0.4   | 0.5   |
| 0     | 0.1   | 0.1   | 0     | 0     |
| 0.24  | 0.24  | 0     | 0     | 0     |
| 0     | 0.25  | 0.3   | 0     | 0     |

有沒有更簡單的方法來實現這個。 矢量化格式有助於顯着減少大型數據幀的處理時間

謝謝

Answer 1

第一個想法是通過DataFrame.where比較每行的前 N 個值，通過Series.nlargest比較 nset 值：

N = 2
df = df.where(df.apply(lambda x: x.eq(x.nlargest(N)), axis=1), 0)
print (df)
   col_A  col_B  col_C  col_D  col_E
0   0.00   0.00    0.0    0.4    0.5
1   0.00   0.10    0.1    0.0    0.0
2   0.24   0.24    0.0    0.0    0.0
3   0.00   0.25    0.3    0.0    0.0

為了提高性能，使用numpy ，來自@Divakar 的解決方案：

N = 2
#https://stackoverflow.com/a/61518029/2901002
idx = np.argsort(-df.to_numpy(), kind='mergesort')[:,:N]
mask = np.zeros(df.shape, dtype=bool)
np.put_along_axis(mask, idx, True, axis=-1)
df = df.where(mask, 0)
print (df)
   col_A  col_B  col_C  col_D  col_E
0   0.00   0.00    0.0    0.4    0.5
1   0.00   0.10    0.1    0.0    0.0
2   0.24   0.24    0.0    0.0    0.0
3   0.00   0.25    0.3    0.0    0.0

如何在 pandas dataframe 中查找每一行的頂列值

問題描述

1 個解決方案

解決方案1
4 已采納 2020-04-30 06:20:48

如何在 pandas dataframe 中查找每一行的頂列值

問題描述

1 個解決方案

解決方案1 4 已采納 2020-04-30 06:20:48

解決方案1
4 已采納 2020-04-30 06:20:48