在Spark中加入兩個RDD時，如何提取不匹配的值？

Question

我有兩組RDD，如下所示：

rdd1 = [(12, abcd, lmno), (45, wxyz, rstw), (67, asdf, wert)]
rdd2 = [(12, abcd, lmno), (87, whsh, jnmk), (45, wxyz, rstw)]

我需要創建一個新的RDD，它具有在rdd2中找到的所有值，而在rdd2中沒有相應的匹配rdd1 。 因此，創建的RDD應該包含以下數據：

rdd3 = [(87, whsh, jnmk)]

有誰知道如何做到這一點？

Answer 1

您可以進行完全連接，然后創建2個新的RDD。

您需要先將它們轉換為KV rdds。 下面的示例代碼：rdd3 = rdd1.fullJoin（rdd2）.filter（x => x._3.exists）.map（x =>（x._1，x._3.get））

（是的，有一種更慣用的方式來獲得選擇，但這應該可行）