[英]How to flatten a data frame in apache spark | Scala
我有以下數據框:
DF1
uid text frequency
1 a 1
1 b 0
1 c 2
2 a 0
2 b 0
2 c 1
我需要根據uid將其展平為:
DF2
uid a b c
1 1 0 2
2 0 0 1
我已經在R中進行過類似的工作,但無法將其轉換為sql或scala。
關於如何處理此問題的任何建議?
您可以按uid
分組,將text
用作樞軸列並求和頻率:
df1
.groupBy("uid")
.pivot("text")
.sum("frequency").show()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.