在Spark中，如何将groupBy与spark-submit一起使用？

Question

我有一个带有groupBy的Spark Python脚本。 特别地，结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在ipython pyspark shell中运行此程序时，它工作正常。 但是，当我尝试编写脚本并通过spark-submit运行它时，我得到了pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'>因为引用groupBy而引起pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'>错误。 是否有已知的解决方法？

Answer 1

事实证明，泡菜不能做很多事情，包括lambda。 我正在做一些事情，需要更加小心。

在Spark中，如何将groupBy与spark-submit一起使用？

问题描述

1 个解决方案

解决方案1
0 2014-11-04 01:30:35

在Spark中，如何将groupBy与spark-submit一起使用？

问题描述

1 个解决方案

解决方案1 0 2014-11-04 01:30:35

解决方案1
0 2014-11-04 01:30:35