如何触发提交存储在 GCP 存储桶中的 .py 文件？

Question

我正在尝试运行这个文件 .py 文件。 我已将 dsgd_mf.py 文件复制到 GCP 存储桶中。 所需的输入数据文件也在我的存储桶中。 如何触发提交并获得输出？ ( https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py )

我在 GCP 上运行 Jupyter 笔记本并安装了 gcloud SDK。 除了创建集群和运行 Jupiter notebook 之外，我还没有更改任何其他内容。 我看到了一些与 .jar 文件有关的选项，但我不知道并且有任何 .jar 文件要指定或链接。 我是新来的，快速的帮助将不胜感激。 请访问链接以查看脚本文件。 我需要帮助才能在 Google 云平台上运行它。

Answer 1

你是在 Dataproc 上运行这个吗？ 如果是这样，您应该能够使用以下内容提交 pyspark 作业：

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

尽管如此，使用 pyspark jupyter 内核将阻止作业开始（即日志会说作业一遍又一遍地等待资源）。

如何触发提交存储在 GCP 存储桶中的 .py 文件？

问题描述

1 个解决方案

解决方案1
1 2019-05-01 15:51:35

如何触发提交存储在 GCP 存储桶中的 .py 文件？

问题描述

1 个解决方案

解决方案1 1 2019-05-01 15:51:35

解决方案1
1 2019-05-01 15:51:35