如何使用另一個 DataFrame 的值作為索引和列引用（並替換其他）在 DataFrame 中保留一個值？

Question

我有以下兩個數據幀：

import pandas as pd

df = pd.DataFrame([[0, 0, 0, 0, 0],
                   [0, 0, 0, 0, 0],
                   [0, 0, 0, 0, 0],
                   [0, 0, 0, 0, 0],
                   [0, 0, 0, 0, 0]],
                  index = [0, 0.25, 0.50, 0.75, 1],
                  columns = [0, 0.25, 0.50, 0.75, 1])

df_cross = pd.DataFrame([[0.0, 0.25],
                         [0.0, 0.75],
                         [0.5, 1]],
                        columns = ['indexes_to_keep',
                                   'cols_to_keep'])

df ：

      0.00  0.25  0.50  0.75  1.00
0.00     0     0     0     0     0
0.25     0     0     0     0     0
0.50     0     0     0     0     0
0.75     0     0     0     0     0
1.00     0     0     0     0     0

df_cross ：

   indexes_to_keep  cols_to_keep
0              0.0          0.25
1              0.0          0.75
2              0.5          1.00

在df我有我的存儲數據，df_cross 包含我想要保留值的索引和列。 df中索引和列與任何df_cross行不匹配的df_cross我想用字符串替換（例如“NaN”）。

預期的輸出是：

     0.00 0.25 0.50 0.75 1.00
0.00  NaN    0  NaN    0  NaN
0.25  NaN  NaN  NaN  NaN  NaN
0.50  NaN  NaN  NaN  NaN    0
0.75  NaN  NaN  NaN  NaN  NaN
1.00  NaN  NaN  NaN  NaN  NaN

提前致謝。

Answer 1

Pandas 不支持使用坐標數組設置元素。 您需要使用 numpy：

# integer locs
rows = df.index.get_indexer(df_cross.indexes_to_keep)
cols = df.columns.get_indexer(df_cross.cols_to_keep)

# where we want to keep the data
mask = np.full(df.shape, False)
mask[rows, cols] = True

df[:] = df.where(mask)

僅使用 Pandas 創建mask另一種方法是：

mask = (df_cross.assign(val=True)
          .set_index(['indexes_to_keep', 'cols_to_keep'])
          ['val'].unstack(fill_value=False)
       )

輸出：

      0.00  0.25  0.50  0.75  1.00
0.00   NaN   0.0   NaN   0.0   NaN
0.25   NaN   NaN   NaN   NaN   NaN
0.50   NaN   NaN   NaN   NaN   0.0
0.75   NaN   NaN   NaN   NaN   NaN
1.00   NaN   NaN   NaN   NaN   NaN

Answer 2

讓我們在df_cross上嘗試crosstab ，然后使用where來屏蔽值

s = pd.crosstab(*df_cross.values.T)
df.where(s == 1)

      0.00  0.25  0.50  0.75  1.00
0.00   NaN   0.0   NaN   0.0   NaN
0.25   NaN   NaN   NaN   NaN   NaN
0.50   NaN   NaN   NaN   NaN   0.0
0.75   NaN   NaN   NaN   NaN   NaN
1.00   NaN   NaN   NaN   NaN   NaN

PS： pd.crosstab(*df_cross.values.T)只是一個語法快捷方式，實際上等效於使用pd.crosstab(df.indexes_to_keep, df.cols_to_keep)

如何使用另一個 DataFrame 的值作為索引和列引用（並替換其他）在 DataFrame 中保留一個值？

問題描述

2 個解決方案

解決方案1
5 2021-11-03 03:40:34

解決方案2
4 2021-11-03 03:44:42

如何使用另一個 DataFrame 的值作為索引和列引用（並替換其他）在 DataFrame 中保留一個值？

問題描述

2 個解決方案

解決方案1 5 2021-11-03 03:40:34

解決方案2 4 2021-11-03 03:44:42

解決方案1
5 2021-11-03 03:40:34

解決方案2
4 2021-11-03 03:44:42