簡體   English   中英

如何扁平化Apache Spark中的數據框 斯卡拉

[英]How to flatten a data frame in apache spark | Scala

我有以下數據框:

DF1

uid  text  frequency
1    a     1
1    b     0
1    c     2
2    a     0
2    b     0
2    c     1

我需要根據uid將其展平為:

DF2

uid  a  b  c
1    1  0  2
2    0  0  1

我已經在R中進行過類似的工作,但無法將其轉換為sql或scala。

關於如何處理此問題的任何建議?

您可以按uid分組,將text用作樞軸列並求和頻率:

   df1
     .groupBy("uid")
     .pivot("text")
     .sum("frequency").show()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM