计算列表中的唯一元素

Question

I have a dataframe containing one column of lists.我有一个 dataframe 包含一列列表。

names                                       unique_values
[B-PER,I-PER,I-PER,B-PER]                        2
[I-PER,N-PER,B-PER,I-PER,A-PER]                  4
[B-PER,A-PER,I-PER]                              3
[B-PER, A-PER,A-PER,A-PER]                       2

I have to count each distinct value in a column of lists and If value appears more than once count it as one.我必须计算一列列表中的每个不同值，如果值出现不止一次，则将其计为一个。 How can I achieve it我怎样才能实现它

Thanks谢谢

Answer 1

Combine explode with nunique结合explode与nunique

df["unique_values"] = df.names.explode().groupby(level = 0).nunique()

Answer 2

You can use the inbulit set data type to do this -您可以使用 inbulit set数据类型来执行此操作 -

df['unique_values'] = df['names'].apply(lambda a : len(set(a)))

This works as sets do not allow any duplicate elements in their construction so when you convert a list to a set it strips all duplicate elements and all you need to do is get the length of the resultant set.这是因为集合不允许在其构造中存在任何重复元素，因此当您将列表转换为集合时，它会去除所有重复元素，您需要做的就是获取结果集合的长度。

to ignore NaN values in a list you can do the following -要忽略列表中的 NaN 值，您可以执行以下操作 -

df['unique_values'] = df['names'].apply(lambda a : len([x for x in set(a) if str(x) != 'nan']))

Answer 3

Try:尝试：

df["unique_values"] = df.names.explode().groupby(level = 0).unique().str.len()

Output Output

df
                                 names  unique_values
0         [B-PER, I-PER, I-PER, B-PER]              2
1  [I-PER, N-PER, B-PER, I-PER, A-PER]              4
2                [B-PER, A-PER, I-PER]              3
3         [B-PER, A-PER, A-PER, A-PER]              2

计算列表中的唯一元素

问题描述

3 个解决方案

解决方案1
2 已采纳 2021-03-17 03:53:04

解决方案2
1 2021-03-17 03:28:33

解决方案3
0 2021-03-17 03:45:46

计算列表中的唯一元素

问题描述

3 个解决方案

解决方案1 2 已采纳 2021-03-17 03:53:04

解决方案2 1 2021-03-17 03:28:33

解决方案3 0 2021-03-17 03:45:46

解决方案1
2 已采纳 2021-03-17 03:53:04

解决方案2
1 2021-03-17 03:28:33

解决方案3
0 2021-03-17 03:45:46