如何在python中使用pandas连接同一列中的项目？

Question

print(dfs["Categorias"])

我得到这个：

0                         wordpress, criação de sites
1                                    criação de sites
2             e-commerce, criação de sites, wordpress
3                           marketing digital, vendas

如何删除重复项并加入列表中的唯一值？

谢谢

Answer 1

您是否正在寻找类似的东西：

将每一行拆分为一个列表并将此列表分解为行，然后获取该列的唯一值。

>>> df['Categorias'].str.split(r',\s+').explode().unique().tolist()
['wordpress', 'criação de sites', 'e-commerce', 'marketing digital', 'vendas']

一步步：

>>> df = df['Categorias'].str.split(r',\s+')
0
0                [wordpress, criação de sites]
1                           [criação de sites]
2    [e-commerce, criação de sites, wordpress]
3                  [marketing digital, vendas]
Name: Categorias, dtype: object

>>> df = df.explode()
0
0            wordpress
0     criação de sites
1     criação de sites
2           e-commerce
2     criação de sites
2            wordpress
3    marketing digital
3               vendas
Name: Categorias, dtype: object

>>> df.unique().tolist()
['wordpress', 'criação de sites', 'e-commerce', 'marketing digital', 'vendas']

Answer 2

您可以使用 set 和itertools.chain ：

from itertools import chain
set(chain(*df['Categorias'].str.split(',\s+')))

输出：

{'criação de sites', 'e-commerce', 'marketing digital', 'vendas', 'wordpress'}

可选地，作为列表：

>>> list(set(chain(*df['Categorias'].str.split(',\s+'))))
['criação de sites', 'e-commerce', 'marketing digital', 'vendas', 'wordpress']

Answer 3

一种方法是将数据框列转换为列表，使用集合删除重复项，然后使用字符串操作连接它们。

>>> ', '.join(set(df['Categorias'].str.split(', ').explode().tolist()))

如何在python中使用pandas连接同一列中的项目？

问题描述

3 个解决方案

解决方案1
1 已采纳 2021-10-04 20:55:58

解决方案2
1 2021-10-04 21:02:11

解决方案3
0 2021-10-04 20:57:23

如何在python中使用pandas连接同一列中的项目？

问题描述

3 个解决方案

解决方案1 1 已采纳 2021-10-04 20:55:58

解决方案2 1 2021-10-04 21:02:11

解决方案3 0 2021-10-04 20:57:23

解决方案1
1 已采纳 2021-10-04 20:55:58

解决方案2
1 2021-10-04 21:02:11

解决方案3
0 2021-10-04 20:57:23