簡體   English   中英

為報告平台選擇哪種紗線群集或紗線客戶端?

[英]What to choose yarn-cluster or yarn-client for a reporting platform?

我打算做的是利用現有數據開發報告平台。 我有一個擁有大量記錄的現有RDBMS。 所以我在用。 Hadoop 2.7,Spark,Hive,JasperReports,Scoop-體系結構

  • Scoop-將數據從RDBMS提取到Hadoop
  • Hadoop-存儲平台
  • 蜂巢-數據倉庫
  • Spark-由於Hive更像是批處理,因此Hive上的Spark可以加快處理速度
  • JasperReports-生成報告。

鑒於我已經閱讀了以下內容

我應該使用哪種模式? 為什么? 決定基於什么?

該決定取決於您是否希望您的應用程序作為YARN應用程序運行。

非YARN應用程序(您在yarn-client模式下獲得)更加簡單。 這是一個經典的Linux應用程序,您可以像任何應用程序一樣啟動它,並且可以像任何應用程序一樣在該計算機上運行。

YARN應用程序(您在yarn-cluster模式下獲得)由YARN管理。 它可以在YARN決定安裝的任何機器上運行。 如果它死了,YARN可能會在另一台計算機上重新啟動它。 它更健壯(例如,如果計算機死機,它將重新啟動),但代價是復雜(例如,您沒有用於應用程序的固定IP地址)。

我先和yarn-client一起去。 如果發現需要它提供的功能,可以稍后再切換到yarn-cluster

Danier Darabos答案中添加更多信息: 除了托管應用程序/故障轉移以及驅動程序在哪里運行(在紗線群集模式下的Application Master或在紗線客戶端模式下的Client之外 ,其他功能保持不變。但是yarn-client模式支持spark-shell紗線群集模式。

在此處輸入圖片說明

看一下這篇文章,以了解在各種模式下運行Spark應用程序的區別-YARN集群,YARN客戶端和Spark獨立模式

在考慮所有選項中的標准之后,做出一個經過計算的決定。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM