Apache Spark 如何 append 新列從列表/數組到 Spark dataframe

Question

我正在使用 Apache Spark 2.0 數據幀/數據集 API 我想從值列表中向我的 dataframe 添加一個新列。 我的列表具有與給定 dataframe 相同數量的值。

val list = List(4,5,10,7,2)
val df   = List("a","b","c","d","e").toDF("row1")

我想做類似的事情：

val appendedDF = df.withColumn("row2",somefunc(list))
df.show()
// +----+------+
// |row1 |row2 |
// +----+------+
// |a    |4    |
// |b    |5    |
// |c    |10   |
// |d    |7    |
// |e    |2    |
// +----+------+

對於任何想法，我都會很高興，我的 dataframe 實際上包含更多列。

Answer 1

你可以這樣做：

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._    

// create rdd from the list
val rdd = sc.parallelize(List(4,5,10,7,2))
// rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:28

// zip the data frame with rdd
val rdd_new = df.rdd.zip(rdd).map(r => Row.fromSeq(r._1.toSeq ++ Seq(r._2)))
// rdd_new: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[33] at map at <console>:32

// create a new data frame from the rdd_new with modified schema
spark.createDataFrame(rdd_new, df.schema.add("new_col", IntegerType)).show
+----+-------+
|row1|new_col|
+----+-------+
|   a|      4|
|   b|      5|
|   c|     10|
|   d|      7|
|   e|      2|
+----+-------+

Answer 2

添加完整性：輸入list （存在於驅動程序內存中）與DataFrame具有相同大小的DataFrame表明這是一個小的 DataFrame 開始 - 所以你可以考慮collect() -ing 它，用list壓縮，並在需要時轉換回DataFrame ：

df.collect()
  .map(_.getAs[String]("row1"))
  .zip(list).toList
  .toDF("row1", "row2")

這不會更快，但如果數據真的很小，它可能可以忽略不計，並且代碼（可以說）更清晰。

Apache Spark 如何 append 新列從列表/數組到 Spark dataframe

問題描述

2 個解決方案

解決方案1
6 已采納 2017-06-06 17:19:58

解決方案2
6 2017-06-06 17:30:29

Apache Spark 如何 append 新列從列表/數組到 Spark dataframe

問題描述

2 個解決方案

解決方案1 6 已采納 2017-06-06 17:19:58

解決方案2 6 2017-06-06 17:30:29

解決方案1
6 已采納 2017-06-06 17:19:58

解決方案2
6 2017-06-06 17:30:29