![](/img/trans.png)
[英]Can you get a cluster of Google Compute Engine instances that are *physically* local?
[英]Pausing Dataproc cluster - Google Compute engine
有没有一种暂停 Dataproc 集群的方法,这样当我没有主动运行 spark-shell 或 spark-submit 作业时我就不会被计费? 此链接的集群管理说明: https ://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/
仅显示如何销毁集群,但我已经安装了 spark cassandra 连接器 API。 除了创建一个我每次都需要安装的图像之外,我唯一的选择是什么?
一般来说,最好的做法是将用于自定义集群的步骤提取到一些设置脚本中,然后使用 Dataproc 的初始化操作在集群部署期间轻松地自动执行安装。
这样一来,如果您想要在多个并发 Dataproc 集群上执行相同的设置,或者想要更改机器类型,或者接收 Dataproc 修复的次要版本错误,则无需手动参与即可轻松重现自定义设置偶尔发布。
目前确实没有官方支持的暂停 Dataproc 集群的方法,这在很大程度上仅仅是因为能够进行可重现的集群部署以及下面列出的其他几个注意事项意味着 99% 的时间最好使用初始化操作自定义就地暂停集群。 也就是说,可能存在短期黑客攻击,例如进入Google Compute Engine 页面,选择属于您要暂停的 Dataproc 集群的实例,然后单击“停止”而不删除它们。
Compute Engine 每小时费用和 Dataproc 的每 vCPU 费用仅在底层实例运行时产生,因此当您手动“停止”实例时,尽管 Dataproc 仍在列出,但您不会产生 Dataproc 或 Compute Engine 的实例小时费用集群为“RUNNING”,尽管如果您转到 Dataproc 集群摘要页面的“VM 实例”选项卡,您会看到警告。
然后,您应该只需点击Google Compute Engine 页面中的“开始”即可让集群再次运行,但请务必考虑以下注意事项:
Dataproc 最近推出了停止和启动集群的功能: https ://cloud.google.com/dataproc/docs/guides/dataproc-start-stop
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.