簡體   English   中英

使用默認配置在EMR群集模式下會發生什么?

[英]What happens in EMR cluster mode with default configuration?

我在亞馬遜emr上運行了一個帶有以下階段和配置的spark應用程序

階段:

        dstream.map(record => transformRecord).map(result => result._1).flatMap(rd => rd).foreacRDD(rdd => { rdd.toDF; df.save() })

配置:1個主節點,在紗線群集模式下具有2個核心節點。 所有其他spark屬性默認為默認的2個spark執行器,4個spark執行器內核,內存為2g

用例:

從消息代理處獲取json記錄流,轉換它們,將它們保存到數據庫中

題:

  1. 執行spark-submit時,使用此配置 - 我看到只有一個spark執行器正在使用記錄並處理它們。 另一個就像一些調度程序。 為什么會這樣?

  2. 如何在某種意義上增加並行處理會消耗更多記錄並在隔離中執行它們? (越來越多的exectuors會有什么不同)

  3. 火花執行器與紗線火花的平行度之間有什么關系?

看完多個博客后嘗試了幾件事,

回答:

  1. 第一個地圖階段由kafka / kinesis的火花接收器線程支持。 因此,他們在分片和一個線程上進行偵聽,創建多個dstream以增加讀取並行性。

剩下的我還沒有弄明白。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM