簡體   English   中英

使用多個python文件和一個配置文件提交pyspark作業

[英]Submitting pyspark job with multiple python files and one configuration file

我有 4 個 python 腳本和一個 .txt 配置文件。 在 4 個 python 文件中,一個文件具有 spark 應用程序的入口點,並且還從其他 python 文件中導入函數。 但是配置文件是在其他一些不是 spark application 入口點的 python 文件中導入的。 我想在 pyspark 中編寫 spark submit 命令,但是當配置文件不是 python 文件而是文本文件或 ini 文件時,我不確定如何使用 spark submit 命令沿配置文件提供多個文件。

演示: 4 個 python 文件: file1.py 、 file2.py 、 file3.py 。 文件4.py

1個配置文件:conf.txt

file1.py :此文件具有 spark 會話並調用所有其他 python 文件。 file3.py :這個 python 文件正在讀取 conf.txt 。

我想通過 spark submit 提供所有這些文件,但不確定 command 。 我確定的一種解決方案是:

spark-submit --master local  --driver-memory 2g --executor-memory  2g --py-files s3_path\file2.py,s3_path\file3.py,s3_path\file4.py  s3_path\file1.py

但是使用上面的 spark submit 我不知道如何通過 conf.txt 。

您可以使用--files來提供要與應用程序一起上傳的文件列表。


例如,

spark-submit file1.py \
    --master local \
    --driver-memory 2g \
    --executor-memory 2g \
    --py-files file2.py,file3.py,file4.py \
    --files conf.txt

如果您的文件位於 S3 實例中,您可以嘗試以下操作:

spark-submit s3://path/to/file1.py \
    --master local \
    --driver-memory 2g \
    --executor-memory 2g \
    --py-files s3://path/to/file2.py,s3://path/to/file3.py,s3://path/to/file4.py \
    --files s3://path/to/conf.txt

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM