如何強制 pandas dataframe 的第 2 級加起來達到第 1 級？

Question

我正在嘗試做一些與這個問題非常相似的事情。 不同之處在於，我有一個預定義的匯總值 (total_by_metric_A) 和度量值，這些值可能會或可能不會加到 total_by_metric_A。

我想要做的是創建一些東西，將任何“剩余”（total_by_metric_A - 度量）分布在度量值之間，以便匯總工作。

除了遍歷並將每個指標的總和與 total_by_metric_A 值進行比較之外，我還沒有想出一種方法來執行此操作。 我希望找到一種不依賴循環的方法。 有沒有人對此有任何想法？ 我在這里修改了該問題中使用的示例以適合我的。

import pandas as pd
df=pd.DataFrame({"A":[1,1,2],"B":["a","b","c"],"metric":[4,5,2], "total_by_metric_A": [10, 10, 2]})

output：

| A | B | metric | total_by_metric_A|
| 1 | a | 4      | 10               |
| 1 | b | 5      | 10               |
| 2 | c | 2      | 2                |

所需的 output（強制 a/b 分配剩余的 1）：

| A | B | metric | total_by_metric_A|
| 1 | a | 4.5    | 10               |
| 1 | b | 5.5    | 10               |
| 2 | c | 2      | 2                |

Answer 1

你只需要GroupBy.transform

g = df.groupby('A')['metric']
df['metric'] += (df['total_by_metric_A'].sub(g.transform('sum'))
                                        .div(g.transform('size'))
                )
print(df)

Output

   A  B  metric  total_by_metric_A
0  1  a     4.5                 10
1  1  b     5.5                 10
2  2  c     2.0                  2

如何強制 pandas dataframe 的第 2 級加起來達到第 1 級？

問題描述

1 個解決方案

解決方案1
1 已采納 2020-10-25 13:59:40

如何強制 pandas dataframe 的第 2 級加起來達到第 1 級？

問題描述

1 個解決方案

解決方案1 1 已采納 2020-10-25 13:59:40

解決方案1
1 已采納 2020-10-25 13:59:40