關於如何在 Scala 中使用隨機值向現有 DataFrame 添加新列

Question

我有一個帶有鑲木地板文件的數據框，我必須添加一個包含一些隨機數據的新列，但我需要這些隨機數據彼此不同。 這是我的實際代碼，spark 的當前版本是 1.5.1-cdh-5.5.2：

val mydf = sqlContext.read.parquet("some.parquet")
// mydf.count()
// 63385686 
mydf.cache

val r = scala.util.Random
import org.apache.spark.sql.functions.udf
def myNextPositiveNumber :String = { (r.nextInt(Integer.MAX_VALUE) + 1 ).toString.concat("D")}
val myFunction = udf(myNextPositiveNumber _)
val myNewDF = mydf.withColumn("myNewColumn",lit(myNextPositiveNumber))

使用此代碼，我有以下數據：

scala> myNewDF.select("myNewColumn").show(10,false)
+-----------+
|myNewColumn|
+-----------+
|889488717D |
|889488717D |
|889488717D |
|889488717D |
|889488717D |
|889488717D |
|889488717D |
|889488717D |
|889488717D |
|889488717D |
+-----------+

看起來 udf myNextPositiveNumber 只被調用一次，不是嗎？

更新確認，只有一個不同的值：

scala> myNewDF.select("myNewColumn").distinct.show(50,false)
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
17/02/21 13:23:11 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
...

+-----------+                                                                   
|myNewColumn|
+-----------+
|889488717D |
+-----------+

我做錯了什么？

更新 2：最后，在@user6910411 的幫助下，我得到了以下代碼：

val mydf = sqlContext.read.parquet("some.parquet")
// mydf.count()
// 63385686 
mydf.cache

val r = scala.util.Random

import org.apache.spark.sql.functions.udf

val accum = sc.accumulator(1)

def myNextPositiveNumber():String = {
   accum+=1
   accum.value.toString.concat("D")
}

val myFunction = udf(myNextPositiveNumber _)

val myNewDF = mydf.withColumn("myNewColumn",lit(myNextPositiveNumber))

myNewDF.select("myNewColumn").count

// 63385686

更新 3

實際代碼生成如下數據：

scala> mydf.select("myNewColumn").show(5,false)
17/02/22 11:01:57 WARN ParquetRecordReader: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl
+-----------+
|myNewColumn|
+-----------+
|2D         |
|2D         |
|2D         |
|2D         |
|2D         |
+-----------+
only showing top 5 rows

看起來 udf 函數只被調用一次，不是嗎？ 我需要在該列中添加一個新的隨機元素。

更新 4 @user6910411

我有這個增加 id 的實際代碼，但它沒有連接最終的字符，這很奇怪。 這是我的代碼：

import org.apache.spark.sql.functions.udf


val mydf = sqlContext.read.parquet("some.parquet")

mydf.cache

def myNextPositiveNumber():String = monotonically_increasing_id().toString().concat("D")

val myFunction = udf(myNextPositiveNumber _)

val myNewDF = mydf.withColumn("myNewColumn",expr(myNextPositiveNumber))

scala> myNewDF.select("myNewColumn").show(5,false)
17/02/22 12:00:02 WARN Executor: 1 block locks were not released by TID = 1:
[rdd_4_0]
+-----------+
|myNewColumn|
+-----------+
|0          |
|1          |
|2          |
|3          |
|4          |
+-----------+

我需要類似的東西：

+-----------+
|myNewColumn|
+-----------+
|1D         |
|2D         |
|3D         |
|4D         |
+-----------+

Answer 1

火花 >= 2.3

可以使用asNondeterministic方法禁用一些優化：

import org.apache.spark.sql.expressions.UserDefinedFunction

val f: UserDefinedFunction = ???
val fNonDeterministic: UserDefinedFunction = f.asNondeterministic

在使用此選項之前，請確保您了解這些保證。

火花 < 2.3

傳遞給udf 的函數應該是確定性的（ SPARK-20586可能除外），並且空函數調用可以由常量替換。 如果要生成隨機數，請使用內置函數：

rand -從 U[0.0, 1.0] 生成具有獨立同分布 (iid) 樣本的隨機列。
randn -從標准正態分布中生成具有獨立同分布 (iid) 樣本的列。

並轉換輸出以獲得所需的分布，例如：

(rand * Integer.MAX_VALUE).cast("bigint").cast("string")

Answer 2

您可以使用monotonically_increasing_id來生成隨機值。

然后，您可以定義一個 UDF，在將其轉換為 String 后將任何字符串附加到它，因為monotonically_increasing_id默認返回 Long。

scala> var df = Seq(("Ron"), ("John"), ("Steve"), ("Brawn"), ("Rock"), ("Rick")).toDF("names")
+-----+
|names|
+-----+
|  Ron|
| John|
|Steve|
|Brawn|
| Rock|
| Rick|
+-----+

scala> val appendD = spark.sqlContext.udf.register("appendD", (s: String) => s.concat("D"))

scala> df = df.withColumn("ID",monotonically_increasing_id).selectExpr("names","cast(ID as String) ID").withColumn("ID",appendD($"ID"))
+-----+---+
|names| ID|
+-----+---+
|  Ron| 0D|
| John| 1D|
|Steve| 2D|
|Brawn| 3D|
| Rock| 4D|
| Rick| 5D|
+-----+---+

關於如何在 Scala 中使用隨機值向現有 DataFrame 添加新列

問題描述

2 個解決方案

解決方案1
15 已采納 2017-02-21 12:40:49

解決方案2
0 2018-06-23 09:12:52

關於如何在 Scala 中使用隨機值向現有 DataFrame 添加新列

問題描述

2 個解決方案

解決方案1 15 已采納 2017-02-21 12:40:49

解決方案2 0 2018-06-23 09:12:52

解決方案1
15 已采納 2017-02-21 12:40:49

解決方案2
0 2018-06-23 09:12:52