[英]Can you get a cluster of Google Compute Engine instances that are *physically* local?
[英]Pausing Dataproc cluster - Google Compute engine
有沒有一種暫停 Dataproc 集群的方法,這樣當我沒有主動運行 spark-shell 或 spark-submit 作業時我就不會被計費? 此鏈接的集群管理說明: https ://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/
僅顯示如何銷毀集群,但我已經安裝了 spark cassandra 連接器 API。 除了創建一個我每次都需要安裝的圖像之外,我唯一的選擇是什么?
一般來說,最好的做法是將用於自定義集群的步驟提取到一些設置腳本中,然后使用 Dataproc 的初始化操作在集群部署期間輕松地自動執行安裝。
這樣一來,如果您想要在多個並發 Dataproc 集群上執行相同的設置,或者想要更改機器類型,或者接收 Dataproc 修復的次要版本錯誤,則無需手動參與即可輕松重現自定義設置偶爾發布。
目前確實沒有官方支持的暫停 Dataproc 集群的方法,這在很大程度上僅僅是因為能夠進行可重現的集群部署以及下面列出的其他幾個注意事項意味着 99% 的時間最好使用初始化操作自定義就地暫停集群。 也就是說,可能存在短期黑客攻擊,例如進入Google Compute Engine 頁面,選擇屬於您要暫停的 Dataproc 集群的實例,然后單擊“停止”而不刪除它們。
Compute Engine 每小時費用和 Dataproc 的每 vCPU 費用僅在底層實例運行時產生,因此當您手動“停止”實例時,盡管 Dataproc 仍在列出,但您不會產生 Dataproc 或 Compute Engine 的實例小時費用集群為“RUNNING”,盡管如果您轉到 Dataproc 集群摘要頁面的“VM 實例”選項卡,您會看到警告。
然后,您應該只需點擊Google Compute Engine 頁面中的“開始”即可讓集群再次運行,但請務必考慮以下注意事項:
Dataproc 最近推出了停止和啟動集群的功能: https ://cloud.google.com/dataproc/docs/guides/dataproc-start-stop
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.