簡體   English   中英

我們可以在 Dataproc 上創建一個 HDFS 為 0%-2% 的 Hadoop 集群嗎?

[英]Can we create a Hadoop Cluster on Dataproc with 0%-2% of HDFS?

是否可以通過將dfs.datanode.du.reserved設置為總節點大小的 95% 或 100% 來在沒有或非常小的 HDFS 空間的 Dataproc 上創建 Hadoop 集群? 計划是將 GCS 用於所有持久存儲,而本地文件系統將主要用於 Spark 的 shuffle 數據。 一些 Hive 查詢可能仍需要對 HDFS 進行臨時處理,這解釋了對最小 HDFS 的需求。 我確實創建了一個 10-90 拆分的集群,並且沒有注意到我的測試作業有任何問題。

  1. 如果采用這種方法,Dataproc 會不會出現穩定性問題?
  2. 此外,是否存在從 Dataproc 的工作程序節點中刪除數據節點守護程序的問題,從而將主工作程序用作僅計算節點。 理由是 Dataproc 目前不允許混合使用可搶占式和不可搶占式輔助工作器。 所以想檢查我們是否可以將主要工作人員重新定位為僅計算非 PVM 節點,而其他輔助工作人員可以僅計算 PVM 節點。

我正在開始一個 GCP 項目,並且在 AZURE 和 AWS 方面足夠精通,但在完成 DDD 設置之后就足夠了解了。

您所描述的類似於 AWS 設置,我最近在這里查看: https ://jayendraputil.com/google-cloud-dataproc/

我的印象是你也可以在沒有 HDFS 的情況下運行 - 0%。 關鍵是,一套作業的性能——就像 AWS 和 AZURE 一樣——受益於對臨時 HDFS 的寫入和讀取,因為它比谷歌雲存儲更快。 我看不到穩定性問題; 如果我真的想要,我現在可以在沒有 HDFS 的情況下使用 Spark。

在第二個問題上,堅持他們設計的。 為什么要嘗試強迫事情? 在 AWS 上,我們遇到了使用 Spark 縮減規模的限制。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM