繁体   English   中英

如何在pyspark提交一个tar.gz文件

[英]How to submit a tar.gz file in pyspark

我处于客户端部署模式,我想提交一个包含运行时、代码和库的tar.gz的应用程序。

目的不依赖于特定 python 运行时的 spark 集群(例如 spark 集群具有 python 3.5 版本,我的代码需要 3.7 版本)或集群上未安装的库。

我发现可以提交 python 文件以及.jar文件。

使用 venv 为 pyspark 作业使用 python 的虚拟环境版本。

设置好 venv 后执行命令:

spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true  --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>

看看: Using VirtualEnv with PySpark

只需在 Python 内使用即可

spark.sparkContext.addPyFile("module.zip")

或者你可以做

spark-submit --py-files module.zip yourapp.py

另请参阅此处的 Spark API

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM