使用Python的reduce（）连接多个PySpark DataFrame

Question

有谁知道为什么使用Python3的functools.reduce()会导致加入多个PySpark DataFrame时性能更差，而不仅仅是使用for循环迭代加入相同的DataFrame？ 具体来说，这会导致大量减速，然后出现内存不足错误：

def join_dataframes(list_of_join_columns, left_df, right_df):
    return left_df.join(right_df, on=list_of_join_columns)

joined_df = functools.reduce(
    functools.partial(join_dataframes, list_of_join_columns), list_of_dataframes,
)

而这一个不是：

joined_df = list_of_dataframes[0]
joined_df.cache()
for right_df in list_of_dataframes[1:]:
    joined_df = joined_df.join(right_df, on=list_of_join_columns)

任何想法将不胜感激。 谢谢！

Answer 1

只要您使用CPython（不同的实现可以，但实际上不应该，在这种特定情况下表现出明显不同的行为）。 如果你看看reduce实现，你会发现它只是一个for循环，只需要很少的异常处理。

核心完全等同于您使用的循环

for element in it:
    value = function(value, element)

并且没有证据支持任何特殊行为的主张。

此外，简单的测试具有帧数的实际限制Spark连接（连接是 Spark 中最昂贵的操作）

dfs = [
    spark.range(10000).selectExpr(
        "rand({}) AS id".format(i), "id AS value",  "{} AS loop ".format(i)
    )
    for i in range(200)
]

直接for循环之间的时序显示没有显着差异

def f(dfs):
    df1 = dfs[0]
    for df2 in dfs[1:]:
        df1 = df1.join(df2, ["id"])
    return df1

%timeit -n3 f(dfs)                 
## 6.25 s ± 257 ms per loop (mean ± std. dev. of 7 runs, 3 loops each)

并reduce调用

from functools import reduce

def g(dfs):
    return reduce(lambda x, y: x.join(y, ["id"]), dfs) 

%timeit -n3 g(dfs)
### 6.47 s ± 455 ms per loop (mean ± std. dev. of 7 runs, 3 loops each)

类似地，整个JVM行为模式在for循环之间是可比较的

用于循环CPU和内存使用 - VisualVM

并reduce

减少CPU和内存使用 - VisualVM

最后两者都生成相同的执行计划

g(dfs)._jdf.queryExecution().optimizedPlan().equals( 
    f(dfs)._jdf.queryExecution().optimizedPlan()
)
## True

这表明在评估计划并且可能发生OOM时没有区别。

换句话说，您的相关性并不意味着因果关系，并且观察到的性能问题不太可能与您用于组合DataFrames的方法相关。

Answer 2

一个原因是减少或折叠通常在功能上是纯粹的：每次累积操作的结果不是写入存储器的相同部分，而是写入新的存储器块。

原则上，垃圾收集器可以在每次累积后释放前一个块，但如果不是，则为每个更新版本的累加器分配内存。

使用Python的reduce（）连接多个PySpark DataFrame

问题描述

2 个解决方案

解决方案1
1 2019-02-06 17:36:01

解决方案2
-1 已采纳 2017-07-07 18:45:43

使用Python的reduce（）连接多个PySpark DataFrame

问题描述

2 个解决方案

解决方案1 1 2019-02-06 17:36:01

解决方案2 -1 已采纳 2017-07-07 18:45:43

解决方案1
1 2019-02-06 17:36:01

解决方案2
-1 已采纳 2017-07-07 18:45:43