標簽[flink-streaming] - 堆棧內存溢出

新的flink Kafka consumer（KafkaSource）能否從舊的FlinkKafkaConsumer的Savepoint/checkpoint開始？

[英]Can new flink Kafka consumer (KafkaSource) start from the old FlinkKafkaConsumer's Savepoint/checkpoint?

我有一份工作正在與舊的 flink Kafka 消費者 ( FlinkKafkaConsumer ) 一起運行，現在我想將它遷移到KafkaSource 。但我不確定這次遷移會產生什么影響。我希望我的工作從舊的 FlinkKafkaConsumer 最新成功的檢查點開始，這可能嗎？如果不可能 ...

在 Flink 中使用 RichMap 比如 Scala MapPartition

[英]Use RichMap in Flink like Scala MapPartition

在 Spark 中，我們有 MapPartition function，它用於對一組條目進行一些初始化，比如一些 db 操作。現在我想在 Flink 中做同樣的事情。經過一些研究，我發現我可以使用 RichMap 來實現相同的用途，但它有一個缺點，即該操作只能在流式作業開始時的 open 方法 ...

升級 Flink 次要版本並從檢查點恢復

[英]upgrade Flink minor version and restore from checkpoint

從官方文檔中，它說 Flink 支持minor version upgrade - restoring a snapshot taken with an older minor version of Flink (1.x → 1.y). . Q1。這是否意味着我可以通過以下方式升級我的工作的 ...

Flink Streaming File Sink 的 output 路徑格式可以改嗎？

[英]Can I change the output path format of Flink Streaming File Sink?

賞金將在 7 天后到期。此問題的答案有資格獲得+50聲望賞金。 Rinze想讓更多人關注這個問題。我正在使用 Pyflink 和 Streaming API 將數據同步到文件系統中。 output 文件的路徑如下： output 文件路徑格式似乎是{year}-{month}-{day} ...

在 Flink 中是否可以將 state 與非鍵控 stream 一起使用？

[英]In Flink is it possible to use state with a non keyed stream?

讓我們假設我有一個輸入 DataStream 並想實現一些需要“內存”的功能，所以我需要 ProcessFunction 讓我可以訪問 state。是否可以直接對 DataStream 進行操作，或者唯一的方法是通過初始 stream 進行鍵控並在鍵控上下文中工作？我認為一種解決方案是使用硬編碼 ...

Flink 觸發觸發多個 windows？

[英]Flink triggers firing for multiple windows?

假設我們有一個 EventTimeSlidingWindow 和一個基於某個水印的 EventTime 觸發器。如果水印生成的頻率非常低，比如說每五分鍾生成一次，而 window 大小是一分鍾，那么當水印進行時，會同時觸發五個 window 結果嗎？即，在我的 output stream 中， ...

Flink sql api - 如何讀取 kafka 事件，該事件又具有 s3 的位置

[英]Flink sql api - how to read kafka event which in turn has a location to s3

我正在嘗試使用 flink sql 從 kafka 主題讀取數據。我們有一個模式，如果有效負載大小大於 1MB，我們將有效負載上傳到 s3，並在 kafka 事件中將一個位置發送到 s3。我有一個這樣的 flink 表這里的contentJson字段可以是實際的 json，例如或者它可以是像 ...

用 Apache Flink 解決 Scheduled Processing

[英]Solving for Scheduled Processing with Apache Flink

我們在 12 個時區擁有約 5 億司機。我們會定期發送不同的信息，例如他們的收益報告、新促銷、政策變更更新等。我們希望在最適合他們的時間將這些通信傳遞給他們。例如 - 當地時間上午 9 點。我們希望盡早生成這些通信並將它們發布到 Flink 並安排它們在適當的時間交付。消息將采用以下格式 ...

在 Flink 中是否可以有一個 DataStream<tuple> Tuple 是所有已知 Tulple（如 Tuple2、Tuple3 等）的基數 class 在哪里？</tuple>

[英]In Flink is it possible to have a DataStream<Tuple> where Tuple is the base class of all known Tulples like Tuple2, Tuple3 etc?

我正在創建一個 Flink 應用程序，它從 Kafka 主題中讀取字符串，例如“2 5 9”是一個值。然后用“”分隔符拆分字符串並將其創建 map 到一個元組。在這種情況下， map function 的結果將是一個 DataStream<Tuple3<Integer,Intege ...

時間戳和水印之間的不同時間縮放

[英]Different time scaling between timestamps and watermarks

我有一個 stream，其傳感器數據從 now() 開始，每秒發出數據，但它們的時間戳增加了 15 分鍾。假設現在是 19:00:00，所以我們有等。因為我知道延遲數據將隨着 x 模擬天數的 BoundedOutOfOrderness 實時到達，也就是 24*(60/15)*x 秒，所以我正在努 ...

如何根據Apache Flink中的第二個密鑰拆分window？

[英]How to split a window based on a second key in Apache Flink?

我正在嘗試創建產品掃描儀的數據 stream 處理，它以以下 Tuple4 的形式生成事件：時間戳（長，以毫秒為單位）、ClientID（int）、ProductID（int）、Quantity（int）。最后，應該得到一個stream的Tuple3：ClientID(int), Product ...

使用 Flink 從 2 個數據源中查找缺失的記錄

[英]Finding missing records from 2 data sources with Flink

我有兩個數據源——一個 S3 存儲桶和一個 postgres 數據庫表。兩個來源都具有相同格式的記錄，並具有類型為 uuid 的唯一標識符。 S3 存儲桶中存在的一些記錄不是 postgres 表的一部分，目的是找到那些丟失的記錄。數據是有界的，因為它在 s3 存儲桶中按每天進行分區。讀取 ...

多個時間窗口的唯一計數 - 處理或減少 function 與 ProcessWindowFunction 結合？

[英]Unique Count for Multiple timewindows - Process or Reduce function combined with ProcessWindowFunction?

我們需要在多個時間窗口的輸入 stream 中找到唯一元素的數量。輸入數據 Object 的定義如下 InputData(ele1: Integer,ele2: String,ele3: String) Stream 由 ele1 和 ele2 鍵入。要求是在過去 1 小時、過去 12 小時和 ...

Apache Flink Streaming Job：部署模式

[英]Apache Flink Streaming Job: deployment patterns

我們想將 Apache Flink 用於流作業——從一個 Kafka 主題讀取並寫入另一個。基礎設施將部署到 Kube.netes。我想在任何 PR 合並到master分支時重新啟動作業。因此，我想知道Flink是否保證重新提交作業會從上次處理的消息開始繼續數據stream？因為最重要的工作 ...

簡單流程的繁忙時間太長 function

[英]Busy time is too high for simple process function

我正在使用 flink v1.13，有 4 個任務管理器（每 16 個 cpu）和 3800 個任務（默認應用程序並行度為 28）在我的應用程序中，一位操作員的忙碌時間總是很高（大約 %80 - %90）。如果我重新啟動 flink 應用程序，那么繁忙時間會減少，但在運行 5-10 小時后，繁 ...

Flink FlatMapFunction 讀取文件的方法

[英]How to Read Files in Flink FlatMapFunction

我正在構建一個 Flink 管道，並且基於實時輸入數據需要從 RichFlatMapFunction 中的存檔文件中讀取記錄（例如，我每天都想讀取前一天和前一周的文件）。我想知道最好的方法是什么？我可以直接使用 Hadoop API，這就是我接下來要嘗試的。那將是這樣的：import org. ...

FlinkKafkaConsumer / KafkaSource 與 AWS Glue Schema Registry 或 Confluent Schema Registry

[英]FlinkKafkaConsumer / KafkaSource with AWS Glue Schema Registry or Confluent Schema Registry

我正在嘗試編寫一個 Flink 流應用程序，它有一個 KafkaSource 來讀取一個主題，該主題具有為其數據定義的 AVRO 模式。我想知道在這種情況下模式的自動緩存在本地是如何工作的，類似於此處的 Confluent 文檔。基本上，用例是消費者不應該事先知道模式。實例化消費者后，模式注 ...

如何在 Flink 應用程序中使用 AvroParquetReader？

[英]How to use AvroParquetReader inside a Flink application?

我在 Flink 應用程序中使用AvroParquetReader時遇到問題。 (flink>=1.15) Motivaton（也就是我為什么要使用它）根據官方文檔，可以將 Flink 中的 Parquet 文件讀取到FileSource中。但是，我只想編寫一個 function 來 ...

Flink 動態生成 TypeInformation

[英]Flink generate TypeInformation dynamically

我正在嘗試通過 RichMapFunction<Row, Row> 解析數據 stream 一行中的嵌套字段。這個的輸入和output是Row類型的。一行中的嵌套列可以有任意數量的字段。問題是，我只想在評估 map function 或通過創建 output 行后返回行的類型信息 ...

Apache Flink - 沒有打印到 output，即使退出代碼為 0

[英]Apache Flink - Nothing printed to the output, even if the exit code is 0

我使用的是 Apache Flink 1.16.0 版本。我正在嘗試通過將元素打印到控制台來做一個簡單的 CEP 出於任何原因，沒有任何內容打印到控制台，即使進程以退出代碼 0 結束。這是代碼：有什么線索嗎？ ...