rdd(row) 使用 mapPartitions 刪除分區內的重復項

Question

我有一個 DF，它已經在所有列上進行了分區和排序。 現在我只想刪除每個分區中的重復項。 （重復不會跨越分區）。 我不能使用df.distinct() ，因為它會導致洗牌，我想避免洗牌。 我將 df 轉換為 rdd 並使用mapPartitions 。 我得到了 output 但它運行得非常慢。 如何優化這個？ 下面是我的代碼。

def unique_values(iterable):
    it = iter(iterable)
    previous = next(it)
    yield previous
    for item in it:
        if item != previous:
            previous = item
            yield item
            
rdd = df.rdd.mapPartitions(unique_values)

df = ..converting rdd back to df...

Spark 版本：EMR 5.28 上的 2.4.4

Answer 1

讓我們假設 dataframe df已經在所有列上進行了分區和排序。

為每一行分配分區 id

val partitionDF = df.withColumn("partitionId", spark_partition_id())

根據`partitionId`和`all_columns`以在每個分區中變得不同

partitionDF.groupBy(partitionDF.columns.map(col): _*).count()

rdd(row) 使用 mapPartitions 刪除分區內的重復項

問題描述

1 個解決方案

解決方案1
0 2020-07-04 04:37:44

為每一行分配分區 id

根據`partitionId`和`all_columns`以在每個分區中變得不同

rdd(row) 使用 mapPartitions 刪除分區內的重復項

問題描述

1 個解決方案

解決方案1 0 2020-07-04 04:37:44

為每一行分配分區 id

根據partitionId和all_columns以在每個分區中變得不同

解決方案1
0 2020-07-04 04:37:44

根據`partitionId`和`all_columns`以在每個分區中變得不同