如何根据 pandas 中其他两列的唯一组合获得两列的唯一计数

Question

这是一个后续问题

假设我有这个数据集：

dff = pd.DataFrame(np.array([["2020-11-13",3,4, 0,0], ["2020-10-11", 3,4,0,1], ["2020-11-13", 1,4,1,1],
                         ["2020-11-14", 3,4,0,0], ["2020-11-13", 5,4,0,1], 
                         ["2020-11-14", 2,4,1,1],["2020-11-12", 1,4,0,1],["2020-11-14", 2,4,0,1],["2020-11-15", 5,4,1,1],
                         ["2020-11-11", 1,2,0,0],["2020-11-15", 1,2,0,1],
                         ["2020-11-18", 2,4,0,1],["2020-11-17", 1,2,0,0],["2020-11-20", 3,4,0,0]]), columns=['Timestamp', 'Name', "slot", "A", "B"])

我想对每个Name和slot组合进行计数，但忽略A和B的相同组合的多个时间序列值。 例如，如果我只是按Name和slot分组，我会得到：

dff.groupby(['Name', "slot"]).Timestamp.count().reset_index(name="count")


  Name slot count
    1   2   3
    1   4   2
    2   4   3
    3   4   4
    5   4   2

但是，对于A == 0 && B == 0 ， name == 1和slot == 2有两种组合，所以我希望计数为2而不是3 。

这是我理想中想要的桌子。

  Name slot count
    1   2   2
    1   4   2
    2   4   2
    3   4   2
    5   4   2

我试过了：

filter_one = dff.groupby(['A','B']).Timestamp.transform(min)
dff1 = dff.loc[dff.Timestamp == filter_one]
dff1.groupby(['Name', "slot"]).Timestamp.count().reset_index(name="count")

但这给了我：

  Name slot count
    1   2   1
    1   4   1
    3   4   1

如果我删除A和B的重复项，它也不起作用。

Answer 1

如果我理解正确，您可能只需要在分组之前根据 grouper 列与 A 和 B 的组合删除重复项：

u = dff.drop_duplicates(['Name','slot','A','B'])
u.groupby(['Name', "slot"]).Timestamp.count().reset_index(name="count")

  Name slot  count
0    1    2      2
1    1    4      2
2    2    4      2
3    3    4      2
4    5    4      2

如何根据 pandas 中其他两列的唯一组合获得两列的唯一计数

问题描述

1 个解决方案

解决方案1
1 已采纳 2021-05-10 17:25:16

如何根据 pandas 中其他两列的唯一组合获得两列的唯一计数

问题描述

1 个解决方案

解决方案1 1 已采纳 2021-05-10 17:25:16

解决方案1
1 已采纳 2021-05-10 17:25:16