使用 spark scala 中的其他数据帧过滤一个数据帧

Question

我将使用以下两个数据框来演示我的问题。

val datF1= Seq((1,"everlasting",1.39),(1,"game", 2.7),(1,"life",0.69),(1,"learning",0.69),
                  (2,"living",1.38),(2,"worth",1.38),(2,"life",0.69),(3,"learning",0.69),(3,"never",1.38)).toDF("ID","token","value")
    datF1.show()

+---+-----------+-----+
| ID|      token|value|
+---+-----------+-----+
|  1|everlasting| 1.39|
|  1|       game|  2.7|
|  1|       life| 0.69|
|  1|   learning| 0.69|
|  2|     living| 1.38|
|  2|      worth| 1.38|
|  2|       life| 0.69|
|  3|   learning| 0.69|
|  3|      never| 1.38|
+---+-----------+-----+




val dataF2= Seq(("life ",0.71),("learning",0.75)).toDF("token1","val2")
dataF2.show()
+--------+----+
|  token1|val2|
+--------+----+
|   life |0.71|
|learning|0.75|
+--------+----+

我想根据token1的dataF2过滤dataF1的ID和value 。 对于token1的dataF2的每个单词，如果存在单词标记，则value应等于dataF1的值，否则 value 应为零。 换句话说，我想要的输出应该是这样的

    +---+----+----+
| ID| val|val2|
+---+----+----+
|  1|0.69|0.69|
|  2| 0.0|0.69|
|  3|0.69| 0.0|
+---+----+----+

由于学习未在 ID 等于 2 中呈现，因此 val 等于 0。 同样，由于 ID 等于 3 时生命不存在，因此 val2 等于 0。

我手动完成如下，

val newQ61=datF1.filter($"token"==="learning")

val newQ7 =Seq(1,2,3).toDF("ID")
val newQ81 =newQ7.join(newQ61, Seq("ID"), "left")
val tf2=newQ81.select($"ID" ,when(col("value").isNull ,0).otherwise(col("value")) as "val" )

val newQ62=datF1.filter($"token"==="life")

val newQ71 =Seq(1,2,3).toDF("ID")
val newQ82 =newQ71.join(newQ62, Seq("ID"), "left")
val tf3=newQ82.select($"ID" ,when(col("value").isNull ,0).otherwise(col("value")) as "val2" )

val tf4 =tf2.join(tf3 ,Seq("ID"), "left")
tf4.show()

+---+----+----+
| ID| val|val2|
+---+----+----+
|  1|0.69|0.69|
|  2| 0.0|0.69|
|  3|0.69| 0.0|
+---+----+----+

有没有办法通过访问另一个数据帧中一个数据帧的索引来更有效地执行此操作，而不是手动执行此操作？ 因为在现实生活中，可能有 2 个以上的单词，因此手动访问每个单词可能非常困难。

谢谢

更新当我使用leftsemi join 我的输出是这样的：

datF1.join(dataF2, $"token"===$"token1", "leftsemi").show()
+---+--------+-----+
| ID|   token|value|
+---+--------+-----+
|  1|learning| 0.69|
|  3|learning| 0.69|
+---+--------+-----+

Answer 1

我相信左外连接然后以token可以在这里工作：

 val ans = df1.join(df2, $"token" === $"token1", "LEFT_OUTER")
.filter($"token1".isNotNull)
.select("ID","token","value")
.groupBy("ID")
.pivot("token")
.agg(first("value"))
.na.fill(0)

结果（没有空处理）：

ans.show

+---+--------+----+
| ID|learning|life|
+---+--------+----+
|  1|    0.69|0.69|
|  3|    0.69|0.0 |
|  2|    0.0 |0.69|
+---+--------+----+

更新：正如 Lamanus 的回答所暗示的那样，内连接可能是比外连接 + 过滤器更好的方法。

Answer 2

我认为inner连接就足够了。 顺便说一句，我在您的测试用例中发现了拼写错误，导致结果错误。

val dataF1= Seq((1,"everlasting",1.39),
                (1,"game", 2.7),
                (1,"life",0.69),
                (1,"learning",0.69),
                (2,"living",1.38),
                (2,"worth",1.38),
                (2,"life",0.69),
                (3,"learning",0.69),
                (3,"never",1.38)).toDF("ID","token","value")
dataF1.show
// +---+-----------+-----+
// | ID|      token|value|
// +---+-----------+-----+
// |  1|everlasting| 1.39|
// |  1|       game|  2.7|
// |  1|       life| 0.69|
// |  1|   learning| 0.69|
// |  2|     living| 1.38|
// |  2|      worth| 1.38|
// |  2|       life| 0.69|
// |  3|   learning| 0.69|
// |  3|      never| 1.38|
// +---+-----------+-----+

val dataF2= Seq(("life",0.71), // "life " -> "life"
                ("learning",0.75)).toDF("token1","val2")
dataF2.show
// +--------+----+
// |  token1|val2|
// +--------+----+
// |    life|0.71|
// |learning|0.75|
// +--------+----+

val resultDF = dataF1.join(dataF2, $"token" === $"token1", "inner")
resultDF.show
// +---+--------+-----+--------+----+
// | ID|   token|value|  token1|val2|
// +---+--------+-----+--------+----+
// |  1|    life| 0.69|    life|0.71|
// |  1|learning| 0.69|learning|0.75|
// |  2|    life| 0.69|    life|0.71|
// |  3|learning| 0.69|learning|0.75|
// +---+--------+-----+--------+----+

resultDF.groupBy("ID").pivot("token").agg(first("value"))
  .na.fill(0).orderBy("ID").show

这会给你的结果，如

+---+--------+----+
| ID|learning|life|
+---+--------+----+
|  1|    0.69|0.69|
|  2|     0.0|0.69|
|  3|    0.69| 0.0|
+---+--------+----+

Answer 3

似乎您需要“左半连接”。 它将根据另一个数据帧过滤一个数据帧。 尝试使用它

datF1.join(datF2, $"token"===$"token2", "leftsemi")

你可以在这里找到更多信息 - https://medium.com/datamindbe/little-known-spark-dataframe-join-types-cc524ea39fd5

使用 spark scala 中的其他数据帧过滤一个数据帧

问题描述

3 个解决方案

解决方案1
2 已采纳 2020-03-07 22:02:31

解决方案2
2 2020-03-08 04:00:48

解决方案3
1 2020-03-07 20:15:27

使用 spark scala 中的其他数据帧过滤一个数据帧

问题描述

3 个解决方案

解决方案1 2 已采纳 2020-03-07 22:02:31

解决方案2 2 2020-03-08 04:00:48

解决方案3 1 2020-03-07 20:15:27

解决方案1
2 已采纳 2020-03-07 22:02:31

解决方案2
2 2020-03-08 04:00:48

解决方案3
1 2020-03-07 20:15:27