比較來自不同數據幀的多列具有相同長度 Pandas

Question

我有四個具有以下結構的數據框：

df1
   max_proba    chosen_class
0   0.8            class_A
1   0.92           class_B
2   0.82           class_B
3   0.74           class_B
4   0.58           class_A

df2
   max_proba    chosen_class
0   0.6            class_C
1   0.62           class_D
2   0.87           class_D
3   0.94           class_C
4   0.62           class_D

# ... and same for df3 and df4 only chosen class values and probabilities that change!

我想比較所有 4 個數據幀之間的列“max_proba”，並在選擇 class 的情況下保持最大值。

（例如：一個樣本，如果 df1 max_proba = 0,23,df2 max_proba = 0,86, df3 max_proba = 0,56, df4 max_proba = 76 ==> 在這里我只想要選擇的 class 概率最高為 0,86可以是class_E（例如））

Answer 1

如果我沒聽錯，你想逐行比較它們。

您應該將它們加入一個數據框：

df = df1.append(df2)

然后使用先前數據幀中的行數創建一個新列“索引”，並在此 dataframe 中創建一個具有行數的列“level_0”：

df = df.reset_index()
df = df.reset_index()

並找到每個索引最大的行的索引：

indexes = df.groupby('index').apply(lambda x: x.max_proba == max(x['max_proba'])).reset_index()

最后，select 行與我們的索引的大數據幀中的 max_proba 最大：

result = df.loc[indexes[indexes.max_proba].level_1.values]

output 將類似於：

level_0 index   max_proba   chosen_class
0   0   0   0.80    class_A
1   1   1   0.92    class_B
7   7   2   0.87    class_D
8   8   3   0.94    class_C
9   9   4   0.62    class_D

您可以使用 function drop刪除額外的列。

比較來自不同數據幀的多列具有相同長度 Pandas

問題描述

1 個解決方案

解決方案1
0 已采納 2022-07-01 11:40:29

比較來自不同數據幀的多列具有相同長度 Pandas

問題描述

1 個解決方案

解決方案1 0 已采納 2022-07-01 11:40:29

解決方案1
0 已采納 2022-07-01 11:40:29