使用折疊連接所有數據框列，並通過Spark / Scala減少

Question

以下內容可用於動態列生成：

import org.apache.spark.sql.functions._
import sqlContext.implicits._
import org.apache.spark.sql.DataFrame

val input = sc.parallelize(Seq(
   ("a", "5a", "7w", "9", "a12", "a13") 
   )).toDF("ID", "var1", "var2", "var3", "var4", "var5")

val columns_to_concat = input.columns
input.select(concat(columns_to_concat.map(c => col(c)): _*).as("concat_column")).show(false)

返回：

+-------------+
|concat_column|
+-------------+
|a5a7w9a12a13 |
+-------------+

在保留動態列生成的同時，如何使用foldLeft，reduceLeft做到這一點？

我總是得到一個錯誤，或者返回一個空值。 盡管concat足夠了，但我對折疊等如何起作用感到好奇。

Answer 1

絕對不是可行的方法 *，但是如果您將其視為編程練習，請執行以下操作：

import org.apache.spark.sql.functions.{col, concat, lit}

columns_to_concat.map(col(_)).reduce(concat(_, _))

要么

columns_to_concat.map(col(_)).foldLeft(lit(""))(concat(_, _))

*因為

對於高級API已經提供的某些解決方案，這是一個復雜的解決方案。
因為它需要計划者/優化器進行額外的工作才能使遞歸表達式變平，所以更不用說該表達式不使用尾調用遞歸並且可以簡單地溢出。

使用折疊連接所有數據框列，並通過Spark / Scala減少

問題描述

1 個解決方案

解決方案1
2 已采納

使用折疊連接所有數據框列，並通過Spark / Scala減少

問題描述

1 個解決方案

解決方案1 2 已采納

解決方案1
2 已采納