繁体   English   中英

是否可以在 Apache 光束或谷歌云数据流中运行自定义 python 脚本

[英]Is it possible to run a custom python script in Apache beam or google cloud dataflow

我想使用 GCP 运行我的 python 脚本之一。 我对 GCP 还很陌生,所以我不太了解。

我的 python 脚本从 BigQuery 抓取数据并执行这些任务

几种数据处理操作

使用 KDTree 和少量聚类算法构建 ML model

将最终结果转储到 Big Query 表。

该脚本需要每晚运行。

到目前为止,我知道我可以使用虚拟机、Cloud Run、Cloud function(对我来说不是一个好选择,因为完成所有事情大约需要一个小时)。 什么应该是我运行这个的最佳选择?

我遇到了 Dataflow,但我很想知道是否可以运行自定义 python 脚本,该脚本可以在谷歌云数据流中执行所有这些操作(假设我必须将所有内容转换为 map-reduce 格式,这似乎并不容易我的代码,尤其是 ML 部分)?

您是否只需要一个 python 脚本在单个实例上运行几个小时然后终止?

您可以在 GCP 项目中设置“基本扩展”应用引擎微服务。 使用“基本缩放”时,任务队列任务的最长运行时间为 24 小时。

请求最多可以运行 24 小时。 基本扩展的实例可以选择处理 /_ah/start 并执行程序或脚本数小时而不返回 HTTP 响应代码。 任务队列任务最长可以运行 24 小时。

https://cloud.google.com/appengine/docs/standard/python/how-instances-are-managed

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM