[英]How to submit a tar.gz file in pyspark
我处于客户端部署模式,我想提交一个包含运行时、代码和库的tar.gz
的应用程序。
目的不依赖于特定 python 运行时的 spark 集群(例如 spark 集群具有 python 3.5 版本,我的代码需要 3.7 版本)或集群上未安装的库。
我发现可以提交 python 文件以及.jar
文件。
使用 venv 为 pyspark 作业使用 python 的虚拟环境版本。
设置好 venv 后执行命令:
spark-submit --master yarn-client --conf spark.pyspark.virtualenv.enabled=true --conf spark.pyspark.virtualenv.type=native --conf spark.pyspark.virtualenv.requirements=<requirementsFile> --conf spark.pyspark.virtualenv.bin.path=<virtualenv_path> --conf spark.pyspark.python=<python_path> <pyspark_file>
只需在 Python 内使用即可
spark.sparkContext.addPyFile("module.zip")
或者你可以做
spark-submit --py-files module.zip yourapp.py
另请参阅此处的 Spark API
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.