[英]Wanting to get_dummies for the most frequest values in a column - Pandas
[英]Apply get_dummies with duplicated values in Pandas column
我有一个 dataframe 如下所示:
df=pd.DataFrame([{"id": 'A1', 'words': 'a,b,d,d,e,f,f'},
{"id": 'A2', 'words': 'm,b,t,d,e,t,s'},
{"id": 'A3', 'words': 's,b,d,e,e,m,m'}])
请注意,如果一个字母出现两次,则只应计算一次。 如何应用get_dummies()
将其转换为以下最终数据框?
id a b d e f m s t
A1 1 1 1 1 1 0 0 0
A2 0 1 1 1 0 1 1 1
A3 0 1 1 1 0 1 1 0
我使用了下面的代码,但它并没有像预期的那样工作,可能是由于列中的重复值。
df = df.assign(words = df.words.str.split(',')).explode('words')
df = pd.get_dummies(df, prefix=['words'], columns=['words'])
df
让我们试试
out = df.set_index('id')['words'].str.get_dummies(',').reset_index()
Out[171]:
id a b d e f m s t
0 A1 1 1 1 1 1 0 0 0
1 A2 0 1 1 1 0 1 1 1
2 A3 0 1 1 1 0 1 1 0
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.