簡體   English   中英

如何在pyspark提交一個tar.gz文件

[英]How to submit a tar.gz file in pyspark

我處於客戶端部署模式,我想提交一個包含運行時、代碼和庫的tar.gz的應用程序。

目的不依賴於特定 python 運行時的 spark 集群(例如 spark 集群具有 python 3.5 版本,我的代碼需要 3.7 版本)或集群上未安裝的庫。

我發現可以提交 python 文件以及.jar文件。

使用 venv 為 pyspark 作業使用 python 的虛擬環境版本。

設置好 venv 后執行命令:

spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true  --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>

看看: Using VirtualEnv with PySpark

只需在 Python 內使用即可

spark.sparkContext.addPyFile("module.zip")

或者你可以做

spark-submit --py-files module.zip yourapp.py

另請參閱此處的 Spark API

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM