簡體   English   中英

在Spark環境中運行python程序時出錯

[英]error while running a python program in spark environment

我正在使用Spark 1.3.0。

我在spark python shell中運行python程序時遇到問題。

這是我提交工作的方式:

/ bin / spark-submit progname.py

我發現的錯誤是,

NameError:名稱“ sc”未定義

在那條線上。

任何想法? 提前致謝

 ## Imports

from pyspark import SparkConf, SparkContext

## CONSTANTS

APP_NAME = "My Spark Application"

##OTHER FUNCTIONS/CLASSES

## Main functionality

def main(sc):

    rdd = sc.parallelize(range(1000), 10)

    print rdd.mean()

if __name__ == "__main__":
     # Configure OPTIONS
     conf = SparkConf().setAppName(APP_NAME)
     conf = conf.setMaster("local[*]")
     #in cluster this will be like
     #"spark://ec2-0-17-03-078.compute-#1.amazonaws.com:7077"
     sc   = SparkContext(conf=conf)
     # Execute Main functionality
main(sc)
conf = pyspark.SparkConf()

這就是創建SparkConf對象的方式。

此外,您可以使用鏈接來進行稀薄設置,例如設置應用程序名稱等

conf = pyspark.SparkConf().setAppName("My_App_Name")

然后傳遞此配置變量以創建spark上下文。

Spark程序必須做的第一件事是創建一個SparkContext對象,該對象告訴Spark如何訪問集群。 要創建SparkContext,首先需要構建一個SparkConf對象,該對象包含有關您的應用程序的信息。

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM