如何将唯一的 id 列添加到 DataFrame、Apache Spark、Scala

Question

我有一个 DataFrame，我想加入另一个 DataFrame，然后按原始行分组，但原始行没有唯一的 id。 我怎样才能添加一个唯一的 id 或以其他方式实现该目标。

Answer 1

您可以使用monotonically_increasing_id

import org.apache.spark.sql.functions._
val unique_df = original_df.withColumn("UniqueID", monotonically_increasing_id)

Answer 2

Tawkir 通过monotonically_increasing_id展示了在Scala的工作方式

但是，此导入：

import org.apache.spark.sql.functions._

不适用于Python 。

正如评论中提到的 user3245256 一样，对于Python导入将是：

from pyspark.sql.functions import monotonically_increasing_id

但。 如果您想使用 UUID 作为键，请尝试在Scala使用以下内容调整您的 Dataframe：

import org.apache.spark.sql.functions._
dataFrame.withColumn("columnName", expr("uuid()"))