如何使用 java 连接火花 dataframe 中的所有列？

Question

This is how I do do for 2 specific columns:这就是我对 2 个特定列的处理方式：

dataSet.withColumn("colName", concat(dataSet.col("col1"), lit(","),dataSet.col("col2") ));

but dataSet.columns() retruns Sting array, and not Column array.但是dataSet.columns()重新运行 Sting 数组，而不是 Column 数组。 How should I craete a List<Column> ?我应该如何创建一个List<Column> ？

Thanks!谢谢！

Answer 1

Simple Way - Instead of df.columns use concat_ws(",","*") , Check below code.简单方法- 而不是df.columns使用concat_ws(",","*") ，检查下面的代码。

df.withColumn("colName",expr("concat_ws(',',*)")).show(false)
+---+--------+---+-------------+
|id |name    |age|colName      |
+---+--------+---+-------------+
|1  |Srinivas|29 |1,Srinivas,29|
|2  |Ravi    |30 |2,Ravi,30    |
+---+--------+---+-------------+

Answer 2

This is how I do do for 2 specific columns:这就是我为 2 个特定列所做的事情：

dataSet.withColumn("colName", concat(dataSet.col("col1"), lit(","),dataSet.col("col2") ));

but dataSet.columns() retruns Sting array, and not Column array.但dataSet.columns()会重新运行 Sting 数组，而不是 Column 数组。 How should I craete a List<Column> ?我应该如何创建List<Column> ？

Thanks!谢谢！

Answer 3

Java has more verbose syntax. Java 的语法更冗长。 Try this -试试这个 -

 df.withColumn("colName",concat_ws(",", toScalaSeq(Arrays.stream(df.columns()).map(functions::col).collect(Collectors.toList()))));

Use below utility to convert java list to scala seq-使用以下实用程序将 java 列表转换为 scala seq-

  <T> Buffer<T> toScalaSeq(List<T> list) {
        return JavaConversions.asScalaBuffer(list);
    }

Answer 4

If someone is looking for a way to concat all the columns of a DataFrame in Scala, this is what worked for me:如果有人正在寻找一种方法来连接 Scala 中 DataFrame 的所有列，这对我有用：

val df_new = df.withColumn(new_column_name, concat_ws("-", df.columns.map(col): _*))

如何使用 java 连接火花 dataframe 中的所有列？

问题描述

3 个解决方案

解决方案1
4 已采纳 2020-07-13 15:18:07

解决方案2
0 2020-07-13 15:09:00

解决方案3
0 2020-07-13 15:23:37

解决方案4
0 2022-11-23 19:16:25

如何使用 java 连接火花 dataframe 中的所有列？

问题描述

3 个解决方案

解决方案1 4 已采纳 2020-07-13 15:18:07

解决方案2 0 2020-07-13 15:09:00

解决方案3 0 2020-07-13 15:23:37

解决方案4 0 2022-11-23 19:16:25

解决方案1
4 已采纳 2020-07-13 15:18:07

解决方案2
0 2020-07-13 15:09:00

解决方案3
0 2020-07-13 15:23:37

解决方案4
0 2022-11-23 19:16:25