簡體   English   中英

如何觸發提交存儲在 GCP 存儲桶中的 .py 文件?

[英]How to spark-submit .py file stored in GCP bucket?

我正在嘗試運行這個文件 .py 文件。 我已將 dsgd_mf.py 文件復制到 GCP 存儲桶中。 所需的輸入數據文件也在我的存儲桶中。 如何觸發提交並獲得輸出? ( https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py )

我在 GCP 上運行 Jupyter 筆記本並安裝了 gcloud SDK。 除了創建集群和運行 Jupiter notebook 之外,我還沒有更改任何其他內容。 我看到了一些與 .jar 文件有關的選項,但我不知道並且有任何 .jar 文件要指定或鏈接。 我是新來的,快速的幫助將不勝感激。 請訪問鏈接以查看腳本文件。 我需要幫助才能在 Google 雲平台上運行它。

你是在 Dataproc 上運行這個嗎? 如果是這樣,您應該能夠使用以下內容提交 pyspark 作業:

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

盡管如此,使用 pyspark jupyter 內核將阻止作業開始(即日志會說作業一遍又一遍地等待資源)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM