[英]Submitting pyspark job with multiple python files and one configuration file
我有 4 個 python 腳本和一個 .txt 配置文件。 在 4 個 python 文件中,一個文件具有 spark 應用程序的入口點,並且還從其他 python 文件中導入函數。 但是配置文件是在其他一些不是 spark application 入口點的 python 文件中導入的。 我想在 pyspark 中編寫 spark submit 命令,但是當配置文件不是 python 文件而是文本文件或 ini 文件時,我不確定如何使用 spark submit 命令沿配置文件提供多個文件。
演示: 4 個 python 文件: file1.py 、 file2.py 、 file3.py 。 文件4.py
1個配置文件:conf.txt
file1.py :此文件具有 spark 會話並調用所有其他 python 文件。 file3.py :這個 python 文件正在讀取 conf.txt 。
我想通過 spark submit 提供所有這些文件,但不確定 command 。 我確定的一種解決方案是:
spark-submit --master local --driver-memory 2g --executor-memory 2g --py-files s3_path\file2.py,s3_path\file3.py,s3_path\file4.py s3_path\file1.py
但是使用上面的 spark submit 我不知道如何通過 conf.txt 。
您可以使用--files
來提供要與應用程序一起上傳的文件列表。
例如,
spark-submit file1.py \
--master local \
--driver-memory 2g \
--executor-memory 2g \
--py-files file2.py,file3.py,file4.py \
--files conf.txt
如果您的文件位於 S3 實例中,您可以嘗試以下操作:
spark-submit s3://path/to/file1.py \
--master local \
--driver-memory 2g \
--executor-memory 2g \
--py-files s3://path/to/file2.py,s3://path/to/file3.py,s3://path/to/file4.py \
--files s3://path/to/conf.txt
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.