繁体   English   中英

如何扁平化Apache Spark中的数据框 斯卡拉

[英]How to flatten a data frame in apache spark | Scala

我有以下数据框:

DF1

uid  text  frequency
1    a     1
1    b     0
1    c     2
2    a     0
2    b     0
2    c     1

我需要根据uid将其展平为:

DF2

uid  a  b  c
1    1  0  2
2    0  0  1

我已经在R中进行过类似的工作,但无法将其转换为sql或scala。

关于如何处理此问题的任何建议?

您可以按uid分组,将text用作枢轴列并求和频率:

   df1
     .groupBy("uid")
     .pivot("text")
     .sum("frequency").show()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM