在Apache Flink中依次處理兩個數據源

Question

我想使用Apache Flink批處理兩個文件，一個接一個。

舉一個具體的例子：假設我想為每行分配一個索引，以使第二個文件中的行緊跟第一個文件。 而不是這樣做，下面的代碼交錯了兩個文件中的行：

val env = ExecutionEnvironment.getExecutionEnvironment

val text1 = env.readTextFile("/path/to/file1")
val text2 = env.readTextFile("/path/to/file2")

val union = text1.union(text2).flatMap { ... }

我想確保所有text1首先通過flatMap運算符發送， 然后再通過text2 。 推薦的做法是什么？

先謝謝您的幫助。

Answer 1

DataSet.union()不提供跨輸入的任何順序保證。 來自相同輸入分區的記錄將保持順序，但將與來自其他輸入的記錄合並。

但是，還有一個更根本的問題。 Flink是並行數據處理器。 並行處理數據時，無法保留全局順序。 例如，當Flink並行讀取文件時，它將嘗試拆分這些文件並獨立處理每個拆分。 拆分沒有任何特定順序地分發。 因此，單個文件的記錄已經被改組。 您需要將整個作業的並行度設置為1，並實現自定義InputFormat才能使此工作InputFormat 。

您可以進行這項工作，但不會並行進行，您需要進行很多調整。 我不認為Flink是執行此任務的最佳工具。 您是否考慮過使用簡單的unix命令行工具來串聯文件？

在Apache Flink中依次處理兩個數據源

問題描述

1 個解決方案

解決方案1
2 已采納 2017-07-28 07:49:35

在Apache Flink中依次處理兩個數據源

問題描述

1 個解決方案

解決方案1 2 已采納 2017-07-28 07:49:35

解決方案1
2 已采納 2017-07-28 07:49:35