繁体   English   中英

您可以从 Dataproc 触发 Python 脚本吗?

[英]Can you trigger Python Scripts from Dataproc?

我正在试验 GCP。 我有一个 Hadoop 的本地环境。它由存储在 HDFS 上的文件和一堆 python 脚本组成,这些脚本发出 API 调用并触发 pig 作业。 这些 python 作业是通过 cron 安排的。

我想了解在 GCP 中做类似事情的最佳方式。 我知道我可以使用 GCS 作为 HDFS 的替代品。 该 Dataproc 可用于启动 Hadoop 个集群并运行 Pig 作业。

是否可以将这些 Python 脚本存储到 GCS 中,有一个类似 cron 的计划来启动 Hadoop 集群,并指向 GCS 中的这些 Python 脚本来运行?

如果您正在 GCP 上寻找 cron 作业或工作流调度程序,请考虑:

  1. Cloud Scheduler ,这是一个完全托管的企业级 cron 作业调度程序;

  2. Cloud Workflows结合了 Google Cloud 服务和 API,可轻松构建可靠的应用程序、流程自动化以及数据和机器学习管道。

  3. Cloud Composer是一个完全托管的工作流编排服务,构建于 Apache Airflow 之上。

Cloud Scheduler 是最简单的一个,但可能最适合您的用例。 Cloud Workflows 与 Cloud Composer 有一些重叠,请在本文档中查看它们的主要区别以及如何选择。

我发现您可以使用 Dataproc 通过“提交猪”作业运行 Python 个脚本。 此作业允许您运行 Bash 个脚本,您可以从中调用 Python 个脚本:

gcloud dataproc jobs submit pig --cluster=test-python-exec --region=us-central1 -e='fs -cp -f gs://testing_dataproc/main/execution/execute_python.sh file:///tmp/execute_python.sh; sh chmod 750 /tmp/execute_python.sh; sh /tmp/execute_python.sh'

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM