簡體   English   中英

在紗線中運行Flink

[英]Running Flink in Yarn

我在紗線上運行Flink(1.4.2)。 我正在使用Flink Yarn Client將作業提交到Yarn Cluster。

假設我有一個帶有4個插槽的TM,並且我部署了一個並行度為4的flink作業,其中包含2個容器-1個JM和1個TM。 每個並行實例將部署在TM中的每個任務插槽中(每個插槽運行的整個作業管道)。

我的作業執行一個join(非鍵流上的SQL時間窗口聯接),它們緩沖最后3個小時的數據。 根據Flink docs the separate threads running in different task slot share data sets and data structures, thus reducing the per-task overhead.

我的問題是,這些運行在不同任務插槽中的線程是否將共享緩沖以供聯接的數據。 所有這些數據在這些線程之間共享。

編輯

樣本查詢-

SELECT R.order_id, S.order.restaurant_id FROM awz_s3_stream1 R INNER JOIN awz_s3_stream2 S ON CAST(R.order_id AS VARCHAR) = S.order_id AND R.proctime BETWEEN S.proctime - INTERVAL '2' HOUR AND S.proctime + INTERVAL '2' HOUR GROUP BY HOP(S.proctime, INTERVAL '2' MINUTE, INTERVAL '1' HOUR), S. order .restaurant_id

每個Task將收到其自己的輸入數據的分離分區。 什么是由共享Tasks在同一運行TaskManager是服務和控制數據結構等網絡棧,網絡連接,RPC端點,分布式組件等之間的心跳

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM