使用默認配置在EMR群集模式下會發生什么？

Question

我在亞馬遜emr上運行了一個帶有以下階段和配置的spark應用程序

階段：

        dstream.map(record => transformRecord).map(result => result._1).flatMap(rd => rd).foreacRDD(rdd => { rdd.toDF; df.save() })

配置：1個主節點，在紗線群集模式下具有2個核心節點。 所有其他spark屬性默認為默認的2個spark執行器，4個spark執行器內核，內存為2g

用例：

從消息代理處獲取json記錄流，轉換它們，將它們保存到數據庫中

題：

執行spark-submit時，使用此配置 - 我看到只有一個spark執行器正在使用記錄並處理它們。 另一個就像一些調度程序。 為什么會這樣？
如何在某種意義上增加並行處理會消耗更多記錄並在隔離中執行它們？ （越來越多的exectuors會有什么不同）
火花執行器與紗線火花的平行度之間有什么關系？

Answer 1

看完多個博客后嘗試了幾件事，

回答：

第一個地圖階段由kafka / kinesis的火花接收器線程支持。 因此，他們在分片和一個線程上進行偵聽，創建多個dstream以增加讀取並行性。

剩下的我還沒有弄明白。