簡體 English 中英

我們可以在 Dataproc 上創建一個 HDFS 為 0%-2% 的 Hadoop 集群嗎？

[英]Can we create a Hadoop Cluster on Dataproc with 0%-2% of HDFS?

原文 2022-07-11 08:19:32 4 1 apache-spark/ hadoop/ hdfs/ google-cloud-dataproc

是否可以通過將dfs.datanode.du.reserved設置為總節點大小的 95% 或 100% 來在沒有或非常小的 HDFS 空間的 Dataproc 上創建 Hadoop 集群？ 計划是將 GCS 用於所有持久存儲，而本地文件系統將主要用於 Spark 的 shuffle 數據。 一些 Hive 查詢可能仍需要對 HDFS 進行臨時處理，這解釋了對最小 HDFS 的需求。 我確實創建了一個 10-90 拆分的集群，並且沒有注意到我的測試作業有任何問題。

如果采用這種方法，Dataproc 會不會出現穩定性問題？
此外，是否存在從 Dataproc 的工作程序節點中刪除數據節點守護程序的問題，從而將主工作程序用作僅計算節點。 理由是 Dataproc 目前不允許混合使用可搶占式和不可搶占式輔助工作器。 所以想檢查我們是否可以將主要工作人員重新定位為僅計算非 PVM 節點，而其他輔助工作人員可以僅計算 PVM 節點。

1 個解決方案

我正在開始一個 GCP 項目，並且在 AZURE 和 AWS 方面足夠精通，但在完成 DDD 設置之后就足夠了解了。

您所描述的類似於 AWS 設置，我最近在這里查看： https ://jayendraputil.com/google-cloud-dataproc/

我的印象是你也可以在沒有 HDFS 的情況下運行 - 0%。 關鍵是，一套作業的性能——就像 AWS 和 AZURE 一樣——受益於對臨時 HDFS 的寫入和讀取，因為它比谷歌雲存儲更快。 我看不到穩定性問題； 如果我真的想要，我現在可以在沒有 HDFS 的情況下使用 Spark。

在第二個問題上，堅持他們設計的。 為什么要嘗試強迫事情？ 在 AWS 上，我們遇到了使用 Spark 縮減規模的限制。

在 GCP Dataproc 中，我們可以在集群中使用的最大工作節點數是多少？

[英]In GCP Dataproc, what is the maximum number of worker nodes we can use in a cluster?

在正在運行的 spark/hadoop 集群中添加 hdfs 數據節點

[英]adding a hdfs datanode in a running spark/hadoop cluster

如何將 HDFS（Hadoop 分布式 FS）部署到 K8s（Kubernetes）集群？

[英]How can I deploy HDFS (Hadoop Distributed FS) to a K8s (Kubernetes) cluster?

Mesos上的獨立Spark集群訪問其他Hadoop集群中的HDFS數據

[英]Standalone Spark cluster on Mesos accessing HDFS data in a different Hadoop cluster

設置fs.defaultFS屬性時無法創建Dataproc集群嗎？

[英]Cannot create a Dataproc cluster when setting the fs.defaultFS property?

當我在Dataproc上創建spark集群時，某些YARN worker節點未加入集群

[英]Some YARN worker node not join cluster , while I create spark cluster on Dataproc

hadoop臨時表中的Dataproc沖突

[英]Dataproc conflict in hadoop temporary tables

列出使用Scala或Python存儲在Hadoop HDFS上的Spark集群中可用的所有文件？

[英]Listing all files available in Spark cluster stored on Hadoop HDFS using Scala or Python?

如何讓Spark Slaves在Hadoop + Spark集群中使用HDFS輸入文件'local'？

[英]How to make Spark slaves use HDFS input files 'local' to them in a Hadoop+Spark cluster?

如何通過由外部 hadoop 集群 Spark 中的 H/A 名稱節點組成的 URI 訪問 hdfs？

[英]How to access hdfs by URI consisting of H/A namenodes in Spark which is outer hadoop cluster?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在 GCP Dataproc 中，我們可以在集群中使用的最大工作節點數是多少？在正在運行的 spark/hadoop 集群中添加 hdfs 數據節點如何將 HDFS（Hadoop 分布式 FS）部署到 K8s（Kubernetes）集群？ Mesos上的獨立Spark集群訪問其他Hadoop集群中的HDFS數據設置fs.defaultFS屬性時無法創建Dataproc集群嗎？當我在Dataproc上創建spark集群時，某些YARN worker節點未加入集群 hadoop臨時表中的Dataproc沖突列出使用Scala或Python存儲在Hadoop HDFS上的Spark集群中可用的所有文件？如何讓Spark Slaves在Hadoop + Spark集群中使用HDFS輸入文件'local'？如何通過由外部 hadoop 集群 Spark 中的 H/A 名稱節點組成的 URI 訪問 hdfs？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM