如何在pyspark中正確使用rdd.map中的模塊

Question

顧名思義，我正在嘗試創建外部模塊，這些模塊隨后將在一個簡單的rdd.map函數中導入並調用。 下面的例子：

## main.py ##
myrdd = spark.sparkContext.parallelize([1,2,3,4,5])
spark.sparkContext.addPyFile("myModule.py")

import myModule as mm

myrdd.map(lambda x: mm.Module.test(x)).collect()

## myModule.py ##
class Module():
    def test(self,x):
       return x * 2

嘗試使用spark提交運行此命令時，出現以下錯誤：

test() missing 1 required positional argument: 'x'

有人可以指出錯誤嗎？

非常感謝你

Answer 1

test（）不是類方法，因此不能直接調用Module.test（x）。

而是創建一個Module對象並在其上調用test（）方法，如下所示：

myrdd = spark.sparkContext.parallelize([1,2,3,4,5])
spark.sparkContext.addPyFile("myModule.py")
import myModule as mm

myrdd.map(lambda x: mm.Module().test(x)).collect()
[2, 4, 6, 8, 10]

如何在pyspark中正確使用rdd.map中的模塊

問題描述

1 個解決方案

解決方案1
0 2018-09-24 16:35:19

如何在pyspark中正確使用rdd.map中的模塊

問題描述

1 個解決方案

解決方案1 0 2018-09-24 16:35:19

解決方案1
0 2018-09-24 16:35:19