如何將整行傳遞給UDF - Spark DataFrame過濾器

Question

我正在為具有大量內部結構的復雜JSON數據集編寫過濾函數。 傳遞單個列太麻煩了。

所以我聲明了以下UDF：

val records:DataFrame = = sqlContext.jsonFile("...")
def myFilterFunction(r:Row):Boolean=???
sqlc.udf.register("myFilter", (r:Row)=>myFilterFunction(r))

直覺我覺得它會像這樣工作：

records.filter("myFilter(*)=true")

實際的語法是什么？

Answer 1

在調用函數時，必須使用struct()函數構造行，請按照以下步驟操作。

導入行，

import org.apache.spark.sql._

定義UDF

def myFilterFunction(r:Row) = {r.get(0)==r.get(1)}

注冊UDF

sqlContext.udf.register("myFilterFunction", myFilterFunction _)

創建dataFrame

val records = sqlContext.createDataFrame(Seq(("sachin", "sachin"), ("aggarwal", "aggarwal1"))).toDF("text", "text2")

使用UDF

records.filter(callUdf("myFilterFunction",struct($"text",$"text2"))).show

當你想要將所有列傳遞給UDF時。

records.filter(callUdf("myFilterFunction",struct(records.columns.map(records(_)) : _*))).show

結果：

+------+------+
|  text| text2|
+------+------+
|sachin|sachin|
+------+------+

Answer 2

scala> inputDF
res40: org.apache.spark.sql.DataFrame = [email: string, first_name: string ... 3 more fields]

scala> inputDF.printSchema
root
 |-- email: string (nullable = true)
 |-- first_name: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- id: long (nullable = true)
 |-- last_name: string (nullable = true)

現在，我想根據性別字段過濾行。 我可以通過使用.filter($"gender" === "Male")來實現這一點，但我想使用.filter(function) 。

所以，定義了我的匿名函數

val isMaleRow = (r:Row) => {r.getAs("gender") == "Male"}

val isFemaleRow = (r:Row) => { r.getAs("gender") == "Female" }

inputDF.filter(isMaleRow).show()

inputDF.filter(isFemaleRow).show()

我覺得可以以更好的方式完成需求，即不聲明為UDF並調用它。

如何將整行傳遞給UDF - Spark DataFrame過濾器

問題描述

2 個解決方案

解決方案1
22 已采納 2015-12-16 08:23:01

解決方案2
3 2018-04-06 14:14:37

如何將整行傳遞給UDF - Spark DataFrame過濾器

問題描述

2 個解決方案

解決方案1 22 已采納 2015-12-16 08:23:01

解決方案2 3 2018-04-06 14:14:37

解決方案1
22 已采納 2015-12-16 08:23:01

解決方案2
3 2018-04-06 14:14:37