標簽[flink-sql] - 堆棧內存溢出

Flink sql api - 如何讀取 kafka 事件，該事件又具有 s3 的位置

[英]Flink sql api - how to read kafka event which in turn has a location to s3

我正在嘗試使用 flink sql 從 kafka 主題讀取數據。我們有一個模式，如果有效負載大小大於 1MB，我們將有效負載上傳到 s3，並在 kafka 事件中將一個位置發送到 s3。我有一個這樣的 flink 表這里的contentJson字段可以是實際的 json，例如或者它可以是像 ...

使用 Flink 從 2 個數據源中查找缺失的記錄

[英]Finding missing records from 2 data sources with Flink

我有兩個數據源——一個 S3 存儲桶和一個 postgres 數據庫表。兩個來源都具有相同格式的記錄，並具有類型為 uuid 的唯一標識符。 S3 存儲桶中存在的一些記錄不是 postgres 表的一部分，目的是找到那些丟失的記錄。數據是有界的，因為它在 s3 存儲桶中按每天進行分區。讀取 ...

Flink SQL 不會即時解壓縮 gzip 源 - 但仍會解析其中的一部分

[英]Flink SQL doesn't unpack gzipped source on the fly - but still parses PART of it

我遇到了一個奇怪的問題，我需要問問你們是否我沒有遺漏任何東西。我在解析普通文件中的 gzipped json 時遇到問題，但我將其簡化為更簡單的情況：我有文件系統原始源代碼和簡單的 sql 來計算行數。對於 1k 行的非壓縮測試文件，我得到 1k 作為計數結果。對於同一個文件，用終端壓縮，結 ...

Flink 動態生成 TypeInformation

[英]Flink generate TypeInformation dynamically

我正在嘗試通過 RichMapFunction<Row, Row> 解析數據 stream 一行中的嵌套字段。這個的輸入和output是Row類型的。一行中的嵌套列可以有任意數量的字段。問題是，我只想在評估 map function 或通過創建 output 行后返回行的類型信息 ...

Apache Kinesis Streams 上 JOINS 的 Flink 問題 Rowtime 屬性不得位於常規連接的輸入行中

[英]Apache Flink issue with JOINS on Kinesis Streams Rowtime attributes must not be in the input rows of a regular join

我正在嘗試一個簡單的練習，我有兩個運動數據 stream 訂單流出貨流 SQL 1 訂單 SQL 2 出貨通過 Python 將假數據生成到 Kinesis 加入問題錯誤訊息也試過錯誤消息：SQL 驗證失敗。從第 2 行第 17 列到第 2 行第 57 列：調用輔助組 function ...

Flink 實現報錯 SQL Processing Time Temporal Left Join

[英]Error in Implementing Flink SQL Processing Time Temporal Left Join

我有來自 Kafka 的 stream 數據，我想用存儲在 Hadoop 的 Parquet 文件中的 static 數據來豐富它，最后寫入文件系統接收器。最初我嘗試了如下所示的查找連接，但出現以下錯誤接下來，我嘗試根據https://nightlies.apache.org/flink/f ...

flink-playground table-walkthrough 權限被拒絕

[英]flink-playground table-walkthrough Permission denied

當我 docker-compose up -d table-walkthrough 項目和錯誤日志 ...

Flink SQL 時間戳到毫秒

[英]Flink SQL timestamp to milliseconds

如果有一種方法可以在不涉及UDF的情況下將 Flink SQL TIMESTAMP(3)、TIMESTAMP_LTZ(3) 轉換為毫秒，有人可以指點我嗎？或者也許有一種方法可以使用 Table API 以毫秒為單位表示 Kafka 事件時間？ ...

Flink 無法反序列化 Debezium 生成的 JSON

[英]Flink failed to deserialize JSON produced by Debezium

我正在嘗試使用 Flink 來使用 Debezium 生成的更改事件日志。 JSON 是這樣的：我嘗試了兩種方法來聲明輸入模式。第一種方式是直接解析 JSON 數據：但是 Flink 會拋出錯誤org.apache.flink.formats.json.JsonToRowDataConve ...

Flink Table JDBC lookup.cache 屬性和相關屬性不適用於流式環境

[英]Flink Table JDBC lookup.cache properties and related properties does not working on streaming environment

當在 Streaming 環境中觸發 SQL 查詢同時連接 Streaming 數據和 jdbc 表時，jdbc 表相關任務在讀取所有表記錄后立即完成。當我將 jdbc 表的屬性添加為 lookup.cache、lookup.partial-cache.max-rows、lookup.partia ...

Flink：Temporal Join 不發送數據

[英]Flink: Temporal Join not emitting data

我正在嘗試實現事件時間臨時連接，但我沒有看到連接發出任何數據。我也沒有看到任何運行時異常。弗林克版本：1.13 Kafka 主題目前只有 1 個分區這是我的設置方式：我有一個“僅附加”DataStream（左輸入/探測端），如下所示：因此，我在加入它們之前將此數據流轉換為表：然后，我有由 ...

flink 中 collect_set(spark sql 函數) 的等價物

[英]Equivalent of collect_set(spark sql function) in flink

一直用Spark，現在換flink了。在 spark 中有一個 function collect_set 用於從多行中收集列的唯一值（這是 error_code 的文本字段，並在其他列（如 org）上分組）示例：通過 collect_set 后，它變成：現在我想在 flink 表中做同樣的事情 ...

Flink SQL 如何使用ROW類型列中的字段？

[英]How to use a field in ROW type column in Flink SQL?

我在 Flink 中執行 SQL 看起來像這樣：但是 Flink 給我這個錯誤：我也嘗試用(`payload`.`after`.`team_config_id`) (`payload.after.team_config_id`)但 Flink 會說 payload.after.team_con ...

為 Flink 表創建 Tumbling Window

[英]Creating a Tumbling Window for a Flink table

我正在嘗試為Java中的 Flink 表創建一個 tumbling window 並查詢該 window 的數據但是，我收到此錯誤Expected LocalReferenceExpression. Got: EventTime Expected LocalReferenceExpressio ...

從 1.4.2 遷移到 1.14.2 時的 Flink IngestionTime 實現

[英]Flink IngestionTime Implementation While Migrating From 1.4.2 to 1.14.2

我們有 stream 處理管道來攝取 Kafka 消息。我們使用的是 Flink v1.4.2。現在計划遷移到 1.14.2。時間戳基於攝取時間。由於 env.setStreamTimeCharacteristic(TimeCharacteristic.IngestionTime) 自 1. ...

在 Flink 表中添加一列

[英]Adding a column in Flink table

我正在嘗試向 Java 中的 flink 表添加一個新列但我遇到了這個ValidationException ：我在flink 文檔中看到了一個類似的例子，所以我不確定我在這里做錯了什么。我嘗試在調試器中運行代碼，它似乎在resolve方法中失敗 ...

Flink 增量 CheckPointing 壓實

[英]Flink Incremental CheckPointing Compaction

我們有一個永遠運行的 flink 作業，它從 kafka 讀取數據，創建滑動時間 windows（流間隔：1 小時，2 小時到 24 小時）和（滑動間隔：1 分鍾，10 分鍾到 1 小時）。基本上是：KafkaSource.keyBy(keyId).SlidingWindow(stream, sl ...

有什么方法可以解析 Apache Flink 表 API 中的 s 字符串表達式嗎？

[英]Is there any way we can parse s string expression in Apache Flink Table API?

我正在嘗試使用 Flink Table API 執行聚合，方法是接受按字段分組和字段聚合表達式作為來自用戶的字符串參數。輸入 GroupBy 字段 = 部門聚合字段表達式 = count(employeeId) , max(salary) 有什么辦法可以使用 flink Table API 來實 ...

Flink Windows - 如何在新事件出現后立即發出中間結果？

[英]Flink Windows - how to emit intermediate results as soon as new event comes in?

Flink 1.14，Java，表 API + 數據流 API ( toDataStream / toAppendStream )。我正在嘗試：從Kafka讀取事件，每小時聚合（ sum ， count等）並將結果更新到Cassandra一旦有新事件發生，換句話說 - 創建新記錄或重新計算每個 ...

如何使用 State Time-To-Live (TTL) 加入 flink

[英]How to join in flink with State Time-To-Live (TTL)

在 Flink 作業中，我閱讀了 Kafka stream 並在將數據保存到數據庫之前應用了一些連接。 Kafka 主題包含兩種類型的數據，所以我首先將兩條記錄連接起來，創建一行，並將其保存到數據庫中。我需要將最新數據存儲在數據庫中。例如 - 我需要表格中的數據我正在Kafka源之上創建一 ...