在 Pandas 列中应用具有重复值的 get_dummies

Question

我有一个 dataframe 如下所示：

df=pd.DataFrame([{"id": 'A1', 'words': 'a,b,d,d,e,f,f'},
                   {"id": 'A2', 'words': 'm,b,t,d,e,t,s'},
                   {"id": 'A3', 'words': 's,b,d,e,e,m,m'}])

请注意，如果一个字母出现两次，则只应计算一次。 如何应用get_dummies()将其转换为以下最终数据框？

id     a b d e f m s t
A1     1 1 1 1 1 0 0 0
A2     0 1 1 1 0 1 1 1
A3     0 1 1 1 0 1 1 0

我使用了下面的代码，但它并没有像预期的那样工作，可能是由于列中的重复值。

df = df.assign(words = df.words.str.split(',')).explode('words')
df = pd.get_dummies(df, prefix=['words'], columns=['words'])
df

Answer 1

让我们试试

out = df.set_index('id')['words'].str.get_dummies(',').reset_index()
Out[171]: 
   id  a  b  d  e  f  m  s  t
0  A1  1  1  1  1  1  0  0  0
1  A2  0  1  1  1  0  1  1  1
2  A3  0  1  1  1  0  1  1  0

在 Pandas 列中应用具有重复值的 get_dummies

问题描述

1 个解决方案

解决方案1
3 已采纳 2021-05-11 17:26:26

在 Pandas 列中应用具有重复值的 get_dummies

问题描述

1 个解决方案

解决方案1 3 已采纳 2021-05-11 17:26:26

解决方案1
3 已采纳 2021-05-11 17:26:26