[英]Dataproc - SparkSession.builder.appName not reflected on dataproc properties
我正在使用 Dataproc Serverless for Spark 運行一個 PySpark 應用程序,我的配置文件如下所示:
spark = (
pyspark.sql.SparkSession.builder.appName("app_name")
.config("spark.logConf", "true")
.config("spark.sql.broadcastTimeout", broadcast_timeout)
.config("spark.jars.packages", "io.delta:delta-core_2.12:0.8.0")
.config("spark.ui.showConsoleProgress", progress_bar)
.getOrCreate()
)
但使用的appName
並沒有反映在 Dataproc 批處理作業控制台中:
在 Dataproc -> Batches -> 單擊 Job Id -> Details 選項卡 -> Properties: spark:spark.app.name
給我一個隨機 ID。
Dataproc UI 反映了在批量提交期間設置的屬性,並不反映在 Spark 應用程序代碼中設置的所有屬性。 您看到的spark.app.name
屬性值是此屬性的默認值,您可以在 Spark 應用程序中覆蓋它。
如果可以,提交批處理作業時需要設置這個屬性:
gcloud dataproc batches submit \
. . . \
--properties=spark.app.name="<MY_CUSTOM_APP_NAME>"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.