簡體   English   中英

在 IntelliJ IDEA 中編寫和運行 pyspark

[英]Write and run pyspark in IntelliJ IDEA

我正在嘗試在 IntelliJ 中使用 Pyspark,但我無法弄清楚如何正確安裝它/設置項目。 我可以在 IntelliJ 中使用 Python,我可以使用 pyspark shell,但我無法告訴 IntelliJ 如何找到 Spark 文件(導入 pyspark 結果為“ImportError: No module named pyspark”)。

感謝有關如何包含/導入 spark 以便 IntelliJ 可以使用它的任何提示。

謝謝。

更新:

我試過這段代碼:

from pyspark import SparkContext, SparkConf
spark_conf = SparkConf().setAppName("scavenge some logs")
spark_context = SparkContext(conf=spark_conf)
address = "C:\test.txt"
log = spark_context.textFile(address)

my_result = log.filter(lambda x: 'foo' in x).saveAsTextFile('C:\my_result')

帶有以下錯誤消息:

Traceback (most recent call last):
File "C:/Users/U546816/IdeaProjects/sparktestC/.idea/sparktestfile", line 2, in <module>
spark_conf = SparkConf().setAppName("scavenge some logs")
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\conf.py", line 97, in __init__
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\context.py", line 221, in _ensure_initialized
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\java_gateway.py", line 35, in launch_gateway

File "C:\Python27\lib\os.py", line 425, in __getitem__
return self.data[key.upper()]
KeyError: 'SPARK_HOME'

Process finished with exit code 1

在程序運行/調試配置中為( SPARK_HOMEPYTHONPATH )設置環境路徑。

例如:

SPARK_HOME=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/
PYTHON_PATH=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/pyspark

請參閱 IntelliJ Idea 中的附加快照

PySpark 的運行/調試配置

例如,這樣的事情:

from pyspark import SparkContext, SparkConf
spark_conf = SparkConf().setAppName("scavenge some logs")
spark_context = SparkContext(conf=spark_conf)
address = "/path/to/the/log/on/hdfs/*.gz"
log = spark_context.textFile(address)

my_result = (log.

...here go your actions and transformations...

).saveAsTextFile('my_result')

我遇到的 1 個問題是環境變量 SPARK_HOME 和 PYTHONPATH 的“Program Files\\spark”中的空間(如上所述),因此我將 spark 二進制文件移到了我的用戶目錄中。 感謝這個答案。 另外,請確保為環境安裝了軟件包。 確保您在 Project Structure -> Platform Settings SDK -> Python SDK (of choice) -> Packages 中看到 pyspark 包。 pyspark 包

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM