Apache Spark SQL數據框按字符串過濾多條規則

Question

我想使用Spark數據框按“喜歡”搜索內容，我們可以使用“或”函數做類似SQL的“ ||” 像這樣過濾

voc_0201.filter(
  col("contents").like("intel").or(col("contents").like("apple"))
).count

但是我必須過濾很多字符串，如何將字符串列表或數組過濾到數據框？

謝謝

Answer 1

首先定義patterns ：

val patterns = Seq("foo", "bar")

並創建一個示例DataFrame ：

val df = Seq((1, "bar"), (2, "foo"), (3, "xyz")).toDF("id", "contents")

一種簡單的解決方案是fold patterns ：

val expr = patterns.foldLeft(lit(false))((acc, x) => 
  acc || col("contents").like(x)
)

df.where(expr).show

// +---+--------+
// | id|contents|
// +---+--------+
// |  1|     bar|
// |  2|     foo|
// +---+--------+

另一個是構建正則表達式並使用rlike ：

val expr = patterns.map(p => s"^$p$$").mkString("|")
df.where(col("contents").rlike(expr)).show

// +---+--------+
// | id|contents|
// +---+--------+
// |  1|     bar|
// |  2|     foo|
// +---+--------+

PS：如果這不是簡單的文字，上述解決方案可能無法正常工作。

最后，對於簡單的模式，您可以使用isin ：

df.where(col("contents").isin(patterns: _*)).show

// +---+--------+ 
// | id|contents|
// +---+--------+
// |  1|     bar|
// |  2|     foo|
// +---+--------+

也可以加入：

val patternsDF = patterns.map(Tuple1(_)).toDF("contents")
df.join(broadcast(patternsDF), Seq("contents")).show

// +---+--------+ 
// | id|contents|
// +---+--------+
// |  1|     bar|
// |  2|     foo|
// +---+--------+

Apache Spark SQL數據框按字符串過濾多條規則

問題描述

1 個解決方案

解決方案1
2 已采納 2016-05-25 08:01:52

Apache Spark SQL數據框按字符串過濾多條規則

問題描述

1 個解決方案

解決方案1 2 已采納 2016-05-25 08:01:52

解決方案1
2 已采納 2016-05-25 08:01:52