[英]How to flatten a data frame in apache spark | Scala
我有以下数据框:
DF1
uid text frequency
1 a 1
1 b 0
1 c 2
2 a 0
2 b 0
2 c 1
我需要根据uid将其展平为:
DF2
uid a b c
1 1 0 2
2 0 0 1
我已经在R中进行过类似的工作,但无法将其转换为sql或scala。
关于如何处理此问题的任何建议?
您可以按uid
分组,将text
用作枢轴列并求和频率:
df1
.groupBy("uid")
.pivot("text")
.sum("frequency").show()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.