使用 Pandas 过滤数据框中多列的唯一匹配项

Question

我对熊猫相当陌生，我一直在尝试使用dataframe.merge和lambda逻辑来解决这个问题的多种解决方案，但我一直无法找到与我正在寻找的结果一致的解决方案。 使用过滤一些数据后

df = df.groupby(['0', '1']).size()
df = df.to_frame(name='2').reset_index()

我得到下表，前两列分别代表起点和终点，第三列代表在groupby之前重复的次数：

我需要同时考虑开始 -> 结束和结束 -> 起点，这意味着以下数据帧：

0   1   2
a   d   8
d   a   2

应该像这样结束：

0   1   2
a   d   10

回到原来的表格，最后应该是这样的：

我相当确定这应该是一个简单的解决方案，但对于我的生活，我无法确定答案。

Answer 1

你可以这样做：

df1 = df[['0', '1']].apply(sorted, 1, result_type = "expand").rename(columns = {0:'col1', 1:'col2'})
    
result = df.groupby([df1.col1, df1.col2]).sum().reset_index()

Answer 2

一种选择是使用apply对列中的值进行排序，然后再进行一次groupby （请注意，您的列名可能不同，我的df是使用pd.read_clipboard() ）

df.reset_index(inplace=True)

df[['0','1']]=df[['0','1']].apply(lambda x:sorted(x),axis=1).tolist()

df

    0   1   2
0   a   d   8
1   b   h   7
2   c   f   3
3   c   e   3
4   a   d   2
5   b   b   2
6   c   e   1
7   c   f   1
8   g   i   1
9   b   h   1
10  g   i   1

df.groupby(['0','1'], as_index=False).sum()

    0   1   2
0   a   d   10
1   b   b   2
2   b   h   8
3   c   e   4
4   c   f   4
5   g   i   2

使用 Pandas 过滤数据框中多列的唯一匹配项

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-09-11 23:37:18

解决方案2
0 2020-09-11 22:47:24

使用 Pandas 过滤数据框中多列的唯一匹配项

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-09-11 23:37:18

解决方案2 0 2020-09-11 22:47:24

解决方案1
1 已采纳 2020-09-11 23:37:18

解决方案2
0 2020-09-11 22:47:24