標簽[apache-hudi] - 堆棧內存溢出

Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:

[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:

當我使用 spark 連接到 kafka 主題並創建 dataframe 然后存儲到 Hudi 中時：我收到以下異常：將所有kafka數據存儲到Hudi表中 ...

當使用 SPARK 讀取視圖時，在 HUDI 表上創建 Athena 視圖會返回軟刪除記錄

[英]Creating an Athena view on a HUDI table returns soft deleted records when the view is read using SPARK

我有多個具有不同列名的 HUDI 表，我在其上構建了一個視圖以標准化列名。從 Athena 讀取此視圖時，它會返回正確的響應。但是，當使用 SPARK 使用 spark.read.parquet("<>") 讀取相同的視圖時，它也會返回軟刪除的記錄。我知道需要使用 spark.re ...

從 Apache Hudi 表中刪除記錄，這是使用 AWS Glue Job 和 Kinesis 創建的 Glue 表的一部分

[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis

我目前配置了一個 DynamoDB stream，它在插入/更新發生時將流輸入到 Kinesis 數據流中，隨后我有 Glue 表，它從上面的 kinesis stream 獲取輸入，然后顯示結構模式，還有一個 Glue 腳本幫助我創建一個可以使用 Athena 訪問的 Hudi 表。我目前能夠 ...

Apache Hudi Upsert/Insert/Deletes 同時進行

[英]Apache Hudi Upsert/Insert/Deletes at the same time

我們可以同時對同一張表運行寫入操作類型Upsert和Delete嗎？ Apache Hudi meta 是否已損壞？？請在這里幫助使用其他解決方案（如果有的話）來做同樣的事情。提前致謝！！ ...

嘗試將數據寫入文件系統時，帶有 Spark 的 Hudi 執行速度非常慢

[英]Hudi with Spark perform very slow when trying to write data into filesystem

我正在通過一個非常簡單的演示使用 Spark 嘗試 Apache Hudi：目錄下大概有10個parquet文件；它們的總大小為 1GB，大約 600 萬條記錄。但是 Hudi 寫的時間很長，失敗了org.apache.spark.SparkException: Job aborted due ...

如何加密s3中存在的apache hudi外部表數據通過spark作業同步到hive表中

[英]How to encrypt apache hudi external tables data present in s3 synced into hive tables through spark jobs

技術背景：我正在從 kafka 獲取表數據並使用 spark 將其放入 hudi 和 hive 表中。我正在使用 AWS EMR。我想加密集群內傳輸的數據以及 s3 中存在的同步外部表數據（靜態數據）注意：我不想使用 AWS EMR 加密，想使用 spark 或 hudi 加密，不想只堅持 A ...

Hudi 用回溯數據覆蓋表格

[英]Hudi overwriting the tables with back date data

我正在將一些初始批量數據推送到一個 hudi 表中，然后每天，我將增量數據寫入其中。但是，如果返回數據到達，則表中已經存在的最新預組合字段將被忽略，到達的預組合字段（較舊的）將其覆蓋。我使用以下配置編寫了一個包含以下數據的數據框：然后在下一次運行中，我更新了以下數據：並獲取此表：這不應該發 ...

Apache Hudi 創建和 append Dataproc 和 Cloud Storage 上的 Upsert 表（Parquet 格式）

[英]Apache Hudi create and append Upsert table (Parquet-format) on Dataproc & Cloud Storage

又是 Dataproc-noob。我的主要目標是從本地源提取表，將它們作為 Parquet 文件存儲在 Cloud Storage 存儲桶中，並根據我之前關於 Dataproc 和 Hudi conf 的帖子在 BigQuery 中創建/更新表，我能夠通過 Dataproc/PySpark/Hu ...

Apache Hudi on Dataproc

[英]Apache Hudi on Dataproc

是否有在 Dataproc 集群上部署 Apache Hudi 的指南？我正在嘗試通過Hudi 快速入門指南進行部署，但我不能。火花 3.1.1 Python 3.8.13 Debian 5.10.127 x86_64 啟動代碼：嘗試：錯誤：編輯 1：拋出配置錯誤警告 org.ap ...

為什么我不能在 flink 中插入 datagen？

[英]why I can't insert datagen in flink?

...

如何為 _hoodie_commit_time 元數據列設置自定義 hudi 字段？

[英]How to set custom hudi field for _hoodie_commit_time metadata column?

Hudi 默認基於當前時間攝取時間線。我想更改此行為並在攝取期間使用我自己的日期時間字段。我想使用 hudi 表僅存儲最新的 state（最后一次提交）。在某些情況下，數據會出現延遲，但此數據不應覆蓋以前的記錄（如果它有最新更新）。我的所有記錄都有last_update_time日期時間 ...

flink SQL 將hudi表寫入minio s3 bucket報錯

[英]Error to write hudi table into minio s3 bucket by flink SQL

問題我正在嘗試通過 flink SQL 將 hudi 表寫入 minio s3 存儲桶，但它失敗了。 hudi表創建完成，但只包含元數據 diretory.hoodie 目錄樹如下：重現重現該行為的步驟：創建 Flink Hudi 表往Hudi表中插入數據環境說明胡迪版本：0.12.0 ...

如何在Apache Hudi中插入struct，map類型

[英]How to insert struct, map type in Apache Hudi

我看官方文檔，沒有關於插入struct和map等復雜類型的示例。那么，語法是什么？我的表定義：spark-sql> desc struct_map; _hoodie_commit_time string NULL _hoodie_commit_seqno string N ...

如何從 debezium 事件為 SQL 服務器中的更新生成的有效載荷中刪除“之前”鍵

[英]How to remove 'before' key from payload generated by debezium event for updates in SQL server

對於 SQL 服務器中的每次更新，debezium 都會生成帶有“之后”和“之前”的事件有效負載。我想在不壓扁有效負載的情況下擺脫“之前”。用例：我將 debezium 與 Kafka 和 hudi 一起使用，並創建了一個數據湖，我不需要刪除操作，所以我跳過了刪除操作。所以我想通過消除“之前 ...

Pyspark 從 Kafka 流向 Hudi

[英]Pyspark streaming from Kafka to Hudi

我是 hudi 的新手，但遇到了問題。我正在使用 pyspark、Kafka 在 AWS 中使用 EMR，我想做的是使用 pyspark 流從 Kafka 集群讀取主題，然后以 hudi 格式將其移動到 S3。老實說，自幾周前以來我已經嘗試了很多，但我不知道這是否可行。有人可以告訴我嗎？我 ...

讀取 Athena 表時，如何在 AWS Glue 作業中排除 S3 上的文件或文件夾路徑？

[英]How to exclude either files or folder paths on S3 within an AWS Glue job when reading an Athena table?

我們有一個 AWS Glue 作業試圖從 HUDI 填充的 Athena 表中讀取數據。不幸的是，我們遇到了一個與create_dynamic_frame.from_catalog試圖從這些表中讀取相關的錯誤。調用 o82.getDynamicFrame 時出錯。 s3://bucket/f ...

我可以僅使用 spark-sql 對 hudi 使用增量查詢、時間旅行查詢和快照查詢嗎？

[英]Can I use incremental, time travel, and snapshot queries with hudi only using spark-sql?

我正在嘗試使用帶有 hudi 的 spark-sql 進行增量查詢、快照查詢和時間旅行查詢，但我能找到的唯一方法是使用 spark.read 創建一個 DataFrame，然后創建一個臨時視圖。有沒有辦法只使用 spark-sql 來完成這個？這是在 EMR 集群中，版本 6.6.0。 ...

如何將Hudi Package添加到本地AWS Glue Interactive Notebook

[英]How to add Hudi Package to local AWS Glue Interactive Notebook

我已經按照https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions.html在本地設置了 Glue Interactive 會話但是，我無法向交互式 session 添加任何其他包，例如 HUDI 有一些神奇的命令可以使用，但不 ...

org.apache.flink.table.api.TableException：不支持的查詢：合並到

[英]org.apache.flink.table.api.TableException: Unsupported query: Merge Into

我正在從事 Flink 流式傳輸工作，我需要在 Hudi 表中插入數據。我正在使用合並到查詢中來更新 Hudi 表中的數據。此查詢在 spark-shell 中運行良好。 But it is giving me Exception in thread "main" org.apache.fli ...

可以使用 Apache Hudi 將一行從 Apache Spark dataframe 插入 Postgres 數據庫嗎？

[英]Can Apache Hudi be used to upsert a row from Apache Spark dataframe into Postgres database?

問題陳述：Apache Spark 中沒有對數據庫的更新插入功能，而是我們必須覆蓋整個表。但是 Apache Hudi 可用於在不覆蓋整個表的情況下向表中插入一行或多行。我了解 Apache Hudi 是可以與 S3 一起使用的表/文件格式。但它也可以與 Postgresdb 或 MySql ...