[英]Group by with lists in Dataframe
不要使用 sum 来连接列表。 它看起来很花哨,但它是二次的,应该被认为是不好的做法。
更好的是使用扁平列表的列表理解:
df1 = (df.groupby('ClusterLabel')['Document']
.agg(lambda x: [z for y in x for z in y])
.reset_index())
或者在itertools.chain
中展平:
from itertools import chain
df1 = (df.groupby('ClusterLabel')['Document']
.agg(lambda x: list(chain(*x)))
.reset_index())
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.