如何将 append 元素添加到 Spark Dataframe 的数组列？

Question

假设我有以下 DataFrame：

scala> val df1 = Seq("a", "b").toDF("id").withColumn("nums", array(lit(1)))
df1: org.apache.spark.sql.DataFrame = [id: string, nums: array<int>]

scala> df1.show()
+---+----+
| id|nums|
+---+----+
|  a| [1]|
|  b| [1]|
+---+----+

我想在nums列中向数组中添加元素，以便得到如下内容：

+---+-------+
| id|nums   |
+---+-------+
|  a| [1,5] |
|  b| [1,5] |
+---+-------+

有没有办法使用 DataFrame 的.withColumn()方法来做到这一点？ 例如

val df2 = df1.withColumn("nums", append(col("nums"), lit(5)))

我查看了 Spark 的 API 文档，但找不到任何可以让我这样做的东西。 我可能可以使用split和concat_ws一起破解某些东西，但如果可能的话，我更喜欢更优雅的解决方案。 谢谢。

Answer 1

import org.apache.spark.sql.functions.{lit, array, array_union}

val df1 = Seq("a", "b").toDF("id").withColumn("nums", array(lit(1)))
val df2 = df1.withColumn("nums", array_union($"nums", lit(Array(5))))
df2.show

+---+------+
| id|  nums|
+---+------+
|  a|[1, 5]|
|  b|[1, 5]|
+---+------+

array_union()是自array_union()年 11 月 2 日 spark 2.4.0 发布以来添加的，在您提出问题的 7 个月后，:) 请参阅https://spark.apache.org/news/index.html

Answer 2

您可以使用udf函数作为

def addValue = udf((array: Seq[Int])=> array ++ Array(5))

df1.withColumn("nums", addValue(col("nums")))
  .show(false)

你应该得到

+---+------+
|id |nums  |
+---+------+
|a  |[1, 5]|
|b  |[1, 5]|
+---+------+

更新的替代方法是使用数据集方式并使用地图作为

df1.map(row => add(row.getAs[String]("id"), row.getAs[Seq[Int]]("nums")++Seq(5)))
  .show(false)

其中 add 是一个案例类

case class add(id: String, nums: Seq[Int])

我希望答案有帮助

Answer 3

如果您和我一样，正在寻找如何在 Spark SQL 语句中执行此操作； 方法如下：

%sql

select array_union(array("value 1"), array("value 2"))

您可以使用 array_union 连接两个数组。 为了能够使用它，您必须将要附加的值转换为数组。 使用 array() 函数执行此操作。

您可以输入数组（“字符串”）或数组（您的列）之类的值。

Answer 4

小心使用 spark array_join。 它正在删除重复项。 因此，如果您的数组中有重复的条目，您将不会得到预期的结果。 而且它至少要花费 O(N)。 因此，当我将它与数组聚合一起使用时，它变成了一个 O(N^2) 操作，并且对于一些大型 arrays 来说永远需要。

如何将 append 元素添加到 Spark Dataframe 的数组列？

问题描述

4 个解决方案

解决方案1
9 已采纳 2019-09-26 21:03:20

解决方案2
5 2018-04-06 04:23:30

解决方案3
0 2021-04-13 14:43:03

解决方案4
0 2022-09-08 23:17:15

如何将 append 元素添加到 Spark Dataframe 的数组列？

问题描述

4 个解决方案

解决方案1 9 已采纳 2019-09-26 21:03:20

解决方案2 5 2018-04-06 04:23:30

解决方案3 0 2021-04-13 14:43:03

解决方案4 0 2022-09-08 23:17:15

解决方案1
9 已采纳 2019-09-26 21:03:20

解决方案2
5 2018-04-06 04:23:30

解决方案3
0 2021-04-13 14:43:03

解决方案4
0 2022-09-08 23:17:15