cost 103 ms
新的flink Kafka consumer(KafkaSource)能否從舊的FlinkKafkaConsumer的Savepoint/checkpoint開始?

[英]Can new flink Kafka consumer (KafkaSource) start from the old FlinkKafkaConsumer's Savepoint/checkpoint?

我有一份工作正在與舊的 flink Kafka 消費者 ( FlinkKafkaConsumer ) 一起運行,現在我想將它遷移到KafkaSource 。 但我不確定這次遷移會產生什么影響。 我希望我的工作從舊的 FlinkKafkaConsumer 最新成功的檢查點開始,這可能嗎? 如果不可能 ...

在 Flink 中使用 RichMap 比如 Scala MapPartition

[英]Use RichMap in Flink like Scala MapPartition

在 Spark 中,我們有 MapPartition function,它用於對一組條目進行一些初始化,比如一些 db 操作。 現在我想在 Flink 中做同樣的事情。 經過一些研究,我發現我可以使用 RichMap 來實現相同的用途,但它有一個缺點,即該操作只能在流式作業開始時的 open 方法 ...

Flink Streaming File Sink 的 output 路徑格式可以改嗎?

[英]Can I change the output path format of Flink Streaming File Sink?

賞金將在 7 天后到期。 此問題的答案有資格獲得+50聲望賞金。 Rinze想讓更多人關注這個問題。 我正在使用 Pyflink 和 Streaming API 將數據同步到文件系統中。 output 文件的路徑如下: output 文件路徑格式似乎是{year}-{month}-{day} ...

在 Flink 中是否可以將 state 與非鍵控 stream 一起使用?

[英]In Flink is it possible to use state with a non keyed stream?

讓我們假設我有一個輸入 DataStream 並想實現一些需要“內存”的功能,所以我需要 ProcessFunction 讓我可以訪問 state。是否可以直接對 DataStream 進行操作,或者唯一的方法是通過初始 stream 進行鍵控並在鍵控上下文中工作? 我認為一種解決方案是使用硬編碼 ...

Flink 觸發觸發多個 windows?

[英]Flink triggers firing for multiple windows?

假設我們有一個 EventTimeSlidingWindow 和一個基於某個水印的 EventTime 觸發器。 如果水印生成的頻率非常低,比如說每五分鍾生成一次,而 window 大小是一分鍾,那么當水印進行時,會同時觸發五個 window 結果嗎? 即,在我的 output stream 中, ...

Flink sql api - 如何讀取 kafka 事件,該事件又具有 s3 的位置

[英]Flink sql api - how to read kafka event which in turn has a location to s3

我正在嘗試使用 flink sql 從 kafka 主題讀取數據。 我們有一個模式,如果有效負載大小大於 1MB,我們將有效負載上傳到 s3,並在 kafka 事件中將一個位置發送到 s3。 我有一個這樣的 flink 表 這里的contentJson字段可以是實際的 json,例如 或者它可以是像 ...

用 Apache Flink 解決 Scheduled Processing

[英]Solving for Scheduled Processing with Apache Flink

我們在 12 個時區擁有約 5 億司機。 我們會定期發送不同的信息,例如他們的收益報告、新促銷、政策變更更新等。 我們希望在最適合他們的時間將這些通信傳遞給他們。 例如 - 當地時間上午 9 點。 我們希望盡早生成這些通信並將它們發布到 Flink 並安排它們在適當的時間交付。 消息將采用以下格式 ...

在 Flink 中是否可以有一個 DataStream<tuple> Tuple 是所有已知 Tulple(如 Tuple2、Tuple3 等)的基數 class 在哪里?</tuple>

[英]In Flink is it possible to have a DataStream<Tuple> where Tuple is the base class of all known Tulples like Tuple2, Tuple3 etc?

我正在創建一個 Flink 應用程序,它從 Kafka 主題中讀取字符串,例如“2 5 9”是一個值。 然后用“”分隔符拆分字符串並將其創建 map 到一個元組。 在這種情況下, map function 的結果將是一個 DataStream&lt;Tuple3&lt;Integer,Intege ...

時間戳和水印之間的不同時間縮放

[英]Different time scaling between timestamps and watermarks

我有一個 stream,其傳感器數據從 now() 開始,每秒發出數據,但它們的時間戳增加了 15 分鍾。 假設現在是 19:00:00,所以我們有 等。因為我知道延遲數據將隨着 x 模擬天數的 BoundedOutOfOrderness 實時到達,也就是 24*(60/15)*x 秒,所以我正在努 ...

如何根據Apache Flink中的第二個密鑰拆分window?

[英]How to split a window based on a second key in Apache Flink?

我正在嘗試創建產品掃描儀的數據 stream 處理,它以以下 Tuple4 的形式生成事件:時間戳(長,以毫秒為單位)、ClientID(int)、ProductID(int)、Quantity(int)。 最后,應該得到一個stream的Tuple3:ClientID(int), Product ...

使用 Flink 從 2 個數據源中查找缺失的記錄

[英]Finding missing records from 2 data sources with Flink

我有兩個數據源——一個 S3 存儲桶和一個 postgres 數據庫表。 兩個來源都具有相同格式的記錄,並具有類型為 uuid 的唯一標識符。 S3 存儲桶中存在的一些記錄不是 postgres 表的一部分,目的是找到那些丟失的記錄。 數據是有界的,因為它在 s3 存儲桶中按每天進行分區。 讀取 ...

多個時間窗口的唯一計數 - 處理或減少 function 與 ProcessWindowFunction 結合?

[英]Unique Count for Multiple timewindows - Process or Reduce function combined with ProcessWindowFunction?

我們需要在多個時間窗口的輸入 stream 中找到唯一元素的數量。 輸入數據 Object 的定義如下 InputData(ele1: Integer,ele2: String,ele3: String) Stream 由 ele1 和 ele2 鍵入。要求是在過去 1 小時、過去 12 小時和 ...

Apache Flink Streaming Job:部署模式

[英]Apache Flink Streaming Job: deployment patterns

我們想將 Apache Flink 用於流作業——從一個 Kafka 主題讀取並寫入另一個。 基礎設施將部署到 Kube.netes。 我想在任何 PR 合並到master分支時重新啟動作業。 因此,我想知道Flink是否保證重新提交作業會從上次處理的消息開始繼續數據stream? 因為最重要的工作 ...

簡單流程的繁忙時間太長 function

[英]Busy time is too high for simple process function

我正在使用 flink v1.13,有 4 個任務管理器(每 16 個 cpu)和 3800 個任務(默認應用程序並行度為 28) 在我的應用程序中,一位操作員的忙碌時間總是很高(大約 %80 - %90)。 如果我重新啟動 flink 應用程序,那么繁忙時間會減少,但在運行 5-10 小時后,繁 ...

Flink FlatMapFunction 讀取文件的方法

[英]How to Read Files in Flink FlatMapFunction

我正在構建一個 Flink 管道,並且基於實時輸入數據需要從 RichFlatMapFunction 中的存檔文件中讀取記錄(例如,我每天都想讀取前一天和前一周的文件)。 我想知道最好的方法是什么? 我可以直接使用 Hadoop API,這就是我接下來要嘗試的。 那將是這樣的:import org. ...

FlinkKafkaConsumer / KafkaSource 與 AWS Glue Schema Registry 或 Confluent Schema Registry

[英]FlinkKafkaConsumer / KafkaSource with AWS Glue Schema Registry or Confluent Schema Registry

我正在嘗試編寫一個 Flink 流應用程序,它有一個 KafkaSource 來讀取一個主題,該主題具有為其數據定義的 AVRO 模式。 我想知道在這種情況下模式的自動緩存在本地是如何工作的,類似於此處的 Confluent 文檔。 基本上,用例是消費者不應該事先知道模式。 實例化消費者后,模式注 ...

Flink 動態生成 TypeInformation

[英]Flink generate TypeInformation dynamically

我正在嘗試通過 RichMapFunction&lt;Row, Row&gt; 解析數據 stream 一行中的嵌套字段。 這個的輸入和output是Row類型的。 一行中的嵌套列可以有任意數量的字段。 問題是,我只想在評估 map function 或通過創建 output 行后返回行的類型信息 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM