簡體   English   中英

在PyCharm IDE中添加Spark包

[英]Adding Spark packages in PyCharm IDE

我已將PyCharm設置為鏈接到我的本地spark安裝,如此鏈接所示

from pyspark import SparkContext, SQLContext, SparkConf
from operator import add
conf = SparkConf()
conf.setMaster("spark://localhost:7077")
conf.setAppName("Test")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
df = sqlContext.createDataFrame([(2012, 8, "Batman", 9.8), (2012, 8, "Hero", 8.7), (2012, 7, "Robot", 5.5), (2011, 7, "Git", 2.0)],["year", "month", "title", "rating"])
df.write.mode('overwrite').format("com.databricks.spark.avro").save("file:///Users/abhattac/PycharmProjects/WordCount/users")

這需要將Databrick的avro jar發送到工作節點。 我可以使用來自shell的spark-submit來完成它,如下所示:

/usr/local/Cellar/apache-spark/1.6.1/bin/pyspark AvroFile.py --packages com.databricks:spark-avro_2.10:2.0.1

當我從PyCharm IDE內部運行時,我不知道如何提供--packages選項。 任何幫助將不勝感激。

您可以使用Python PYSPARK_SUBMIT_ARGS環境變量,方法是使用PyCharm運行配置(在設置SPARK_HOME位置相同)的環境變量部分中將其傳遞給Python

在此輸入圖像描述

或直接在代碼中使用os.environ ,如在pyspark代碼加載外部庫所示

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM