繁体   English   中英

Spark DataFrame,如何聚合列序列?

[英]Spark DataFrame, how to to aggregate sequence of columns?

我有一个数据框,并且可以使用静态列名称进行聚合,即:

df.groupBy("_c0", "_c1", "_c2", "_c3", "_c4").agg(
concat_ws(",", collect_list("_c5")),
concat_ws(",", collect_list("_c6")))

并且它工作正常,但是如果我得到groupby列的序列和聚合列的序列怎么办?

换句话说,如果我有

val toGroupBy = Seq("_c0", "_c1", "_c2", "_c3", "_c4")
val toAggregate = Seq("_c5", "_c6")

并想要执行以上操作?

要使用序列执行相同的groupBy和聚合,您可以执行以下操作:

val aggCols = toAggregate.map(c => expr(s"""concat_ws(",", collect_list($c))"""))
df.groupBy(toGroupBy.head, toGroupBy.tail:_*).agg(aggCols.head, aggCols.tail:_*)

expr函数采用一个表达式并将其求值到列中。 然后,将groupByagg的varargs变体应用于列列表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM