Apache-Spark如何與類中的方法一起使用

Question

我現在正在學習Apache-Spark。 在仔細閱讀了Spark教程之后，我了解了如何將Python函數傳遞給Apache-Spark來處理RDD數據集。 但是現在我仍然不知道Apache-Spark如何與類中的方法一起使用。 例如，我的代碼如下：

import numpy as np
import copy
from pyspark import SparkConf, SparkContext

class A():
    def __init__(self, n):
        self.num = n

class B(A):
    ### Copy the item of class A to B.
    def __init__(self, A):
        self.num = copy.deepcopy(A.num)

    ### Print out the item of B
    def display(self, s):
        print s.num
        return s

def main():
    ### Locally run an application "test" using Spark.
    conf = SparkConf().setAppName("test").setMaster("local[2]")

    ### Setup the Spark configuration.
    sc = SparkContext(conf = conf)

    ### "data" is a list to store a list of instances of class A. 
    data = []
    for i in np.arange(5):
        x = A(i)
        data.append(x)

    ### "lines" separate "data" in Spark.  
    lines = sc.parallelize(data)

    ### Parallelly creates a list of instances of class B using
    ### Spark "map".
    temp = lines.map(B)

    ### Now I got the error when it runs the following code:
    ### NameError: global name 'display' is not defined.
    temp1 = temp.map(display)

if __name__ == "__main__":
    main()

實際上，我使用上述代碼使用temp = lines.map(B)並行生成class B的實例列表。 之后，我做了temp1 = temp.map(display) ，因為我想並行打印出class B實例列表中的每個項目。 但是現在出現了錯誤： NameError: global name 'display' is not defined. 我想知道如果仍然使用Apache-Spark並行計算，如何解決該錯誤。 如果有人幫助我，我真的很感激。

Answer 1

結構體

.
├── ab.py
└── main.py

main.py

import numpy as np
from pyspark import SparkConf, SparkContext
import os
from ab import A, B

def main():
    ### Locally run an application "test" using Spark.
    conf = SparkConf().setAppName("test").setMaster("local[2]")

    ### Setup the Spark configuration.
    sc = SparkContext(
            conf = conf, pyFiles=[
               os.path.join(os.path.abspath(os.path.dirname(__file__)), 'ab.py')]
    ) 

    data = []
    for i in np.arange(5):
        x = A(i)
        data.append(x)

    lines = sc.parallelize(data)
    temp = lines.map(B)

    temp.foreach(lambda x: x.display()) 

if __name__ == "__main__":
    main()

ab.py

import copy

class A():
    def __init__(self, n):
        self.num = n

class B(A):
    ### Copy the item of class A to B.
    def __init__(self, A):
        self.num = copy.deepcopy(A.num)

    ### Print out the item of B
    def display(self):
        print self.num

評論：

再一次-打印是個壞主意。 忽略Spark架構，很有可能會成為程序中的瓶頸。
如果需要診斷輸出，請考慮記錄日志或收集樣本並在本地檢查： for x in rdd.sample(False, 0.001).collect(): x.display()
對於副作用，請使用foreach而不是map
我修改了display方法。 我不知道什么應該是s在這方面

Apache-Spark如何與類中的方法一起使用

問題描述

1 個解決方案

解決方案1
4 已采納 2015-07-08 06:04:21

main.py

ab.py

Apache-Spark如何與類中的方法一起使用

問題描述

1 個解決方案

解決方案1 4 已采納 2015-07-08 06:04:21

main.py

ab.py

解決方案1
4 已采納 2015-07-08 06:04:21