繁体   English   中英

如何触发提交存储在 GCP 存储桶中的 .py 文件?

[英]How to spark-submit .py file stored in GCP bucket?

我正在尝试运行这个文件 .py 文件。 我已将 dsgd_mf.py 文件复制到 GCP 存储桶中。 所需的输入数据文件也在我的存储桶中。 如何触发提交并获得输出? ( https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py )

我在 GCP 上运行 Jupyter 笔记本并安装了 gcloud SDK。 除了创建集群和运行 Jupiter notebook 之外,我还没有更改任何其他内容。 我看到了一些与 .jar 文件有关的选项,但我不知道并且有任何 .jar 文件要指定或链接。 我是新来的,快速的帮助将不胜感激。 请访问链接以查看脚本文件。 我需要帮助才能在 Google 云平台上运行它。

你是在 Dataproc 上运行这个吗? 如果是这样,您应该能够使用以下内容提交 pyspark 作业:

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

尽管如此,使用 pyspark jupyter 内核将阻止作业开始(即日志会说作业一遍又一遍地等待资源)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM