![](/img/trans.png)
[英]How to do a groupby rank and add it as a column to existing dataframe in spark scala?
[英]How to add a unique id column to a DataFrame, Apache Spark, Scala
我有一个 DataFrame,我想加入另一个 DataFrame,然后按原始行分组,但原始行没有唯一的 id。 我怎样才能添加一个唯一的 id 或以其他方式实现该目标。
您可以使用monotonically_increasing_id
import org.apache.spark.sql.functions._
val unique_df = original_df.withColumn("UniqueID", monotonically_increasing_id)
Tawkir 通过monotonically_increasing_id
展示了在Scala
的工作方式
但是,此导入:
import org.apache.spark.sql.functions._
不适用于Python
。
正如评论中提到的 user3245256 一样,对于Python
导入将是:
from pyspark.sql.functions import monotonically_increasing_id
但。 如果您想使用 UUID 作为键,请尝试在Scala
使用以下内容调整您的 Dataframe:
import org.apache.spark.sql.functions._
dataFrame.withColumn("columnName", expr("uuid()"))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.