如何在 udf 中使用 dataframe 並解析 spark scala 中的數據

Question

我是 scala 和火花的新手。 我需要使用 udf 創建新的 dataframe。 我有 2 個數據框，其中一個包含 3 列，即公司、ID 和類型。 df2 包含 2 列，即公司和消息。 df2 JSON 會這樣

{"company": "Honda", "message": ["19:[\"cost 500k\"],[\"colour blue\"]","20:[\"cost 600k\"],[\"colour white\"]"]}
{"company": "BMW", "message": ["19:[\"cost 1500k\"],[\"colour blue\"]"]}

df2 將是這樣的：

+-------+--------------------+
|company|             message|
+-------+--------------------+
|  Honda|[19:["cost 500k"]...|
|    BMW|[19:["cost 1500k"...|
+-------+--------------------+
 |-- company: string (nullable = true)
 |-- message: array (nullable = true)
 |    |-- element: string (containsNull = true)

df1 將是這樣的：

+----------+---+-------+
|company   | id|   name|
+----------+---+-------+
|  Honda   | 19| city  |
|  Honda   | 20| amaze |
|  BMW     | 19| x1    |
+----------+---+-------+

我想通過將 df2 中的 id 替換為 df1 中的名稱來創建一個新的數據框。

["city:[\"cost 500k\"],[\"colour blue\"]","amaze:[\"cost 600k\"],[\"colour white\"]"]

我曾嘗試通過將消息作為 Seq[String] 和公司傳遞來使用 udf，但我無法 select df1 中的數據。
我想要這樣的 output：

+-------+----------------------+
|company|             message  |
+-------+----------------------+
|  Honda|[city:["cost 500k"]...|
|    BMW|[x1:["cost 1500k"...  |
+-------+----------------------+

我嘗試使用休閑 udf，但在選擇名稱時遇到錯誤

def asdf(categories: Seq[String]):String={
     | var data=""
     | for(w<-categories){
     | if (w != null){
     | var id=w.toString().indexOf(":")
     | var namea=df1.select("name").where($"id" === 20).map(_.getString(0)).collect()
     | var name=namea(0)
     | println(name)
     | var ids=w.toString().substring(0,id)
     | var li=w.toString().replace(ids,name)
     | println(li)
     | data=data+li
     | }
     | }
     | data
     | }

Answer 1

請檢查以下代碼。

scala> df1.show(false)
+-------+---------------------------------------------------------------------+
|company|message                                                              |
+-------+---------------------------------------------------------------------+
|Honda  |[19:["cost 500k"],["colour blue"], 20:["cost 600k"],["colour white"]]|
|BMW    |[19:["cost 1500k"],["colour blue"]]                                  |
+-------+---------------------------------------------------------------------+

scala> df2.show(false)
+-------+---+-----+
|company|id |name |
+-------+---+-----+
|Honda  | 19|city |
|Honda  | 20|amaze|
|BMW    | 19|x1   |
+-------+---+-----+

val replaceFirst = udf((message: String,id:String,name:String) => 
  if(message.contains(s"""${id}:""")) message.replaceFirst(s"""${id}:""",s"${name}:") else ""
)

val jdf = 
df1
.withColumn("message",explode($"message"))
.join(df2,df1("company") === df2("company"),"inner")
.withColumn(
    "message_data",
    replaceFirst($"message",trim($"id"),$"name")
)
.filter($"message_data" =!= "")

scala> jdf.show(false)

+-------+---------------------------------+-------+---+-----+------------------------------------+
|company|message                          |company|id |name |message_data                        |
+-------+---------------------------------+-------+---+-----+------------------------------------+
|Honda  |19:["cost 500k"],["colour blue"] |Honda  | 19|city |city:["cost 500k"],["colour blue"]  |
|Honda  |20:["cost 600k"],["colour white"]|Honda  | 20|amaze|amaze:["cost 600k"],["colour white"]|
|BMW    |19:["cost 1500k"],["colour blue"]|BMW    | 19|x1   |x1:["cost 1500k"],["colour blue"]   |
+-------+---------------------------------+-------+---+-----+------------------------------------+

scala> df1.join(df2,df1("company") === df2("company"),"inner").select(df1("company"),df1("message"),df2("id"),df2("name")).withColumn("message",explode($"message")).withColumn("message",replaceFirst($"message",trim($"id"),$"name")).filter($"message" =!= "").groupBy($"company").agg(collect_list($"message").cast("string").as("message")).show(false)
+-------+--------------------------------------------------------------------------+
|company|message                                                                   |
+-------+--------------------------------------------------------------------------+
|Honda  |[amaze:["cost 600k"],["colour white"], city:["cost 500k"],["colour blue"]]|
|BMW    |[x1:["cost 1500k"],["colour blue"]]                                       |
+-------+--------------------------------------------------------------------------+

如何在 udf 中使用 dataframe 並解析 spark scala 中的數據

問題描述

1 個解決方案

解決方案1
0 已采納 2020-06-28 09:25:18

如何在 udf 中使用 dataframe 並解析 spark scala 中的數據

問題描述

1 個解決方案

解決方案1 0 已采納 2020-06-28 09:25:18

解決方案1
0 已采納 2020-06-28 09:25:18