[英]How to submit a tar.gz file in pyspark
我處於客戶端部署模式,我想提交一個包含運行時、代碼和庫的tar.gz
的應用程序。
目的不依賴於特定 python 運行時的 spark 集群(例如 spark 集群具有 python 3.5 版本,我的代碼需要 3.7 版本)或集群上未安裝的庫。
我發現可以提交 python 文件以及.jar
文件。
使用 venv 為 pyspark 作業使用 python 的虛擬環境版本。
設置好 venv 后執行命令:
spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>
只需在 Python 內使用即可
spark.sparkContext.addPyFile("module.zip")
或者你可以做
spark-submit --py-files module.zip yourapp.py
另請參閱此處的 Spark API
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.