如何使用 Python 计算 csv 中唯一值的数量

Question

也许有人可以发布另一个已经回答我的问题的问题，但我一直找不到。

我的数据集是一个 10,000+ 行 csv ，如下所示：

    col_1          col_2
   a, b, c, d       9 
   a, b, c          3
   b, d             5
   a, c, e          1

我想知道如何遍历 col_1 以提取每个字母，然后计算 col_2 的数量（如果出现）。

所以对于这个例子，output 将是：

a - 13
b - 17
c - 13
d - 14
e - 1

Answer 1

得到假人，相乘然后相加：

df['col_1'].str.get_dummies(",").mul(df['col_2'],axis=0).sum()

a    13
b    17
c    13
d    14
e     1
dtype: int64

Answer 2

尝试用explode然后groupby split

df.assign(col_1 = df['col_1'].str.split(', ')).explode('col_1').groupby('col_1')['col_2'].sum()
Out[172]: 
col_1
a    13
b    17
c    13
d    14
e     1
Name: col_2, dtype: int64

Answer 3

根据您在问题中所展示的内容，我假设您已经拥有df中的数据

用逗号Split字符串并value_counts列表，最后调用explode

df['col1'].str.split(',').explode().value_counts()

样品运行：

df = pd.DataFrame({'col1': ['a,b,c',  'a,b', 'b,c']})
df['col1'].str.split(',').explode().value_counts()
Out[82]: 
b    3
c    2
a    2
Name: col1, dtype: int64

Answer 4

out = (
    df.assign(
        col_1=df["col_1"].apply(lambda x: list(map(str.strip, x.split(","))))
    )
    .explode("col_1")
    .groupby("col_1")
    .sum()
)
print(out)

印刷：

       col_2
col_1       
a         13
b         17
c         13
d         14
e          1

如何使用 Python 计算 csv 中唯一值的数量

问题描述

4 个解决方案

解决方案1
2 2021-05-06 17:16:11

解决方案2
1 2021-05-06 17:14:33

解决方案3
0 2021-05-06 17:09:43

解决方案4
0 2021-05-06 17:11:27

如何使用 Python 计算 csv 中唯一值的数量

问题描述

4 个解决方案

解决方案1 2 2021-05-06 17:16:11

解决方案2 1 2021-05-06 17:14:33

解决方案3 0 2021-05-06 17:09:43

解决方案4 0 2021-05-06 17:11:27

解决方案1
2 2021-05-06 17:16:11

解决方案2
1 2021-05-06 17:14:33

解决方案3
0 2021-05-06 17:09:43

解决方案4
0 2021-05-06 17:11:27