簡體   English   中英

Dataproc - SparkSession.builder.appName 未反映在 dataproc 屬性上

[英]Dataproc - SparkSession.builder.appName not reflected on dataproc properties

我正在使用 Dataproc Serverless for Spark 運行一個 PySpark 應用程序,我的配置文件如下所示:

spark = (
    pyspark.sql.SparkSession.builder.appName("app_name")
        .config("spark.logConf", "true")
        .config("spark.sql.broadcastTimeout", broadcast_timeout)
        .config("spark.jars.packages", "io.delta:delta-core_2.12:0.8.0")
        .config("spark.ui.showConsoleProgress", progress_bar)
        .getOrCreate()
    )

但使用的appName並沒有反映在 Dataproc 批處理作業控制台中:

在 Dataproc -> Batches -> 單擊 Job Id -> Details 選項卡 -> Properties: spark:spark.app.name給我一個隨機 ID。

Dataproc UI 反映了在批量提交期間設置的屬性,並不反映在 Spark 應用程序代碼中設置的所有屬性。 您看到的spark.app.name屬性值是此屬性的默認值,您可以在 Spark 應用程序中覆蓋它。

如果可以,提交批處理作業時需要設置這個屬性:

gcloud dataproc batches submit \
  . . . \
  --properties=spark.app.name="<MY_CUSTOM_APP_NAME>"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM