Scala：根據預定義數組 Spark 1.6 中存在的列值過濾 DF 行

Question

我的問題與這篇文章幾乎相似

我有一個數據框，我需要過濾掉預定義數組中列值不是 substring 的行。

例如：List = ["apple", "grapes", "melon"]

+--------+-----------+
|quantity|      fruit|
+--------+-----------+
|      12|      apple|
|      24|green apple|
|       6|     grapes|
|      11|      mango|
|      12| watermelon|
|      15|  muskmelon|
|      22|    berries|
+--------+-----------+

使用數組過濾后，我的 df 應該如下所示：

+--------+-----------+
|quantity|      fruit|
+--------+-----------+
|      12|      apple|
|      24|green apple|
|       6|     grapes|
|      12| watermelon|
|      15|  muskmelon|
+--------+-----------+

列值“mango”和“berries”的行應該被過濾掉，因為預定義列表中不存在子字符串。

spark 1.6中的任何建議或想法？

Answer 1

使用.rlike function 通過創建字符串| 從列表。

Example:

df.show()
/*
+--------+-----------+
|quantity|      fruit|
+--------+-----------+
|      12|      apple|
|      24|green apple|
|       6|     grapes|
|      11|      mango|
|      12| watermelon|
|      15|  muskmelon|
|      22|    berries|
+--------+-----------+
*/

import org.apache.spark.sql.functions._

val list=Seq("apple" , "grapes" , "melon").mkString("|")
//list: String = apple|grapes|melon

df.filter(col("fruit").rlike(list)).show()
/*
+--------+-----------+
|quantity|      fruit|
+--------+-----------+
|      12|      apple|
|      24|green apple|
|       6|     grapes|
|      12| watermelon|
|      15|  muskmelon|
+--------+-----------+
*/

Scala：根據預定義數組 Spark 1.6 中存在的列值過濾 DF 行

問題描述

1 個解決方案

解決方案1
0 2020-08-14 20:52:37

Scala：根據預定義數組 Spark 1.6 中存在的列值過濾 DF 行

問題描述

1 個解決方案

解決方案1 0 2020-08-14 20:52:37

解決方案1
0 2020-08-14 20:52:37