比较 pandas dataframe 中的 2 个列表列。如果存在于另一个列表中，则从一个列表中删除值

Question

假设我有 2 个列表列，如下所示：

group1 = [['John', 'Mark'], ['Ben', 'Johnny'], ['Sarah', 'Daniel']]
group2 = [['Aya', 'Boa'], ['Mab', 'Johnny'], ['Sarah', 'Peter']]

df = pd.DataFrame({'group1':group1, 'group2':group2})

我想比较两个列表列并从group1中删除列表元素（如果它们存在于group2中）。 所以上面的预期结果：

    group1                       group2
['John', 'Mark']             ['Aya', 'Boa']
['Ben']                     ['Mab', 'Johnny']
['Daniel']                  ['Sarah', 'Peter']

我怎样才能做到这一点？ 我试过这个：

df['group1'] = [[name for name in df['group1'] if name not in df['group2']]]

但是出现错误：

TypeError: unhashable type: 'list'

请帮忙。

Answer 1

你需要zip这两个系列。 我在这里使用一个set来提高效率（如果每个列表只有几个项目，这并不重要）：

df['group1'] = [[x for x in a if x not in S]
                for a, S in zip(df['group1'], df['group2'].apply(set))]

Output：

         group1          group2
0  [John, Mark]      [Aya, Boa]
1         [Ben]   [Mab, Johnny]
2      [Daniel]  [Sarah, Peter]

Answer 2

您可以使用设置差异：

df.apply(lambda x: set(x['group1']).difference(x['group2']), axis=1)

Output：

0    {John, Mark}
1           {Ben}
2        {Daniel}
dtype: object

要获取列表，您可以在末尾添加.apply(list) 。

Answer 3

您可以在 lambda function 中使用循环：

df['group1']=df[['group1','group2']].apply(lambda x: [i for i in x['group1'] if i not in x['group2']],axis=1)
print(df)
'''
         group1          group2
0  [John, Mark]      [Aya, Boa]
1         [Ben]   [Mab, Johnny]
2      [Daniel]  [Sarah, Peter]
'''

比较 pandas dataframe 中的 2 个列表列。如果存在于另一个列表中，则从一个列表中删除值

问题描述

3 个解决方案

解决方案1
3 已采纳 2022-11-18 07:41:58

解决方案2
2 2022-11-18 07:56:35

解决方案3
1 2022-11-18 07:51:09

比较 pandas dataframe 中的 2 个列表列。如果存在于另一个列表中，则从一个列表中删除值

问题描述

3 个解决方案

解决方案1 3 已采纳 2022-11-18 07:41:58

解决方案2 2 2022-11-18 07:56:35

解决方案3 1 2022-11-18 07:51:09

解决方案1
3 已采纳 2022-11-18 07:41:58

解决方案2
2 2022-11-18 07:56:35

解决方案3
1 2022-11-18 07:51:09