使用Spark過濾具有條件的數據框

Question

我有一個看起來像的數據框

scala> val df = sc.parallelize(Seq(("User 1","X"), ("User 2", "Y"), ("User 3", "X"), ("User 2", "E"), ("User 3", "E"))).toDF("user", "event")

scala> df.show
+------+-----+
|  user|event|
+------+-----+
|User 1|    X|
|User 2|    Y|
|User 3|    X|
|User 2|    E|
|User 3|    E|
+------+-----+

我想找到所有擁有事件“X”但沒有事件“E”的用戶

在這種情況下，只有'用戶1'符合條件，因為它沒有事件“E”條目。 我怎么能用Spark API做到這一點？

Answer 1

可以使用左連接：

val xDF = df.filter(col("event") === "X")
val eDF = df.filter(col("event") === "E")
val result = xDF.as("x").join(eDF.as("e"), List("user"), "left_outer").where(col("e.event").isNull).select(col("x.user"))

結果是：

+------+
|user  |
+------+
|User 1|
+------+

Answer 2

您可以使用事件集合對用戶進行分組，然后根據特定條件過濾掉適當用戶的事件。

val result = df.groupBy("user")
    .agg(collect_list("event")
    .as("events"))
    .filter( p => p.getList(1).contains("X") && !p.getList(1).contains("E"))

Answer 3

val tmp = df.groupBy("user").pivot("event").count
tmp.show
+------+----+----+----+
|  user|   E|   X|   Y|
+------+----+----+----+
|User 2|   1|null|   1|
|User 3|   1|   1|null|
|User 1|null|   1|null|
+------+----+----+----+
tmp.filter(  ($"X" isNotNull) and ($"E" isNull) ).show
+------+----+---+----+
|  user|   E|  X|   Y|
+------+----+---+----+
|User 1|null|  1|null|
+------+----+---+----+
tmp.filter(  ($"X" isNotNull) and ($"E" isNull) ).select("user","X").show 
+------+---+
|  user|  X|
+------+---+
|User 1|  1|
+------+---+

希望這會有所幫助

Answer 4

您可以計算每個用戶的行數並計算用戶和事件的每一行，並篩選兩個計數相等且事件列具有X值的行。

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window
df.withColumn("count", count($"user").over(Window.partitionBy("user")))
    .withColumn("distinctCount", count($"user").over(Window.partitionBy("user", "event")))
    .filter($"count" === $"distinctCount" && $"event" === "X")
    .drop("count", "distinctCount")

你應該得到你想要的結果

我希望答案是有幫助的

使用Spark過濾具有條件的數據框

問題描述

4 個解決方案

解決方案1
4 2017-09-06 10:07:45

解決方案2
4 2017-09-06 10:59:51

解決方案3
3 2017-09-06 08:23:23

解決方案4
1 2017-09-06 07:58:30

使用Spark過濾具有條件的數據框

問題描述

4 個解決方案

解決方案1 4 2017-09-06 10:07:45

解決方案2 4 2017-09-06 10:59:51

解決方案3 3 2017-09-06 08:23:23

解決方案4 1 2017-09-06 07:58:30

解決方案1
4 2017-09-06 10:07:45

解決方案2
4 2017-09-06 10:59:51

解決方案3
3 2017-09-06 08:23:23

解決方案4
1 2017-09-06 07:58:30