如何從 Pyspark 中的 DataFrame 中獲取這種子集？

Question

比如我有下面的DataFrame

+-----+----+------+
| idx | id | type |
+-----+----+------+
|   0 | 10 | a    |
|   1 | 10 | b    |
|   2 | 20 | b    |
|   3 | 30 | a    |
+-----+----+------+

我想要通過以下順序步驟獲得這樣的子集：

獲取type a 的所有id
- 過濾后的id是10和30
獲取id與上面相同的所有行
- 行0 , 1和3被選中

結果子集 DataFrame 是：

+-----+----+------+
| idx | id | type |
+-----+----+------+
|   0 | 10 | a    |
|   1 | 10 | b    |
|   3 | 30 | a    |
+-----+----+------+

如何在pyspark中實現這一點？ 提前致謝。

另一個后續問題，如何實現以下。

如果步驟更改為：

獲取id與上面不同的所有行
- 第2行被選中，因為只有這一行的id不是10或30

生成的 DataFrame 應該是：

+-----+----+------+
| idx | id | type |
+-----+----+------+
|   2 | 20 | b    |
+-----+----+------+

Answer 1

您可以使用過濾器和連接操作。 1.

filterDF = dataDF.filter(dataDF.type == "a")
joinedDS = dataDF.join(filterDF, on="id")

對於第 2 點，您可以使用 left_anti 加入

joinedDS1 =  dataDF.join(joinedDS, on="id", how='left_anti')

如何從 Pyspark 中的 DataFrame 中獲取這種子集？

問題描述

1 個解決方案

解決方案1
0 已采納 2019-11-06 14:33:23

如何從 Pyspark 中的 DataFrame 中獲取這種子集？

問題描述

1 個解決方案

解決方案1 0 已采納 2019-11-06 14:33:23

解決方案1
0 已采納 2019-11-06 14:33:23