![](/img/trans.png)
[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:
當我使用 spark 連接到 kafka 主題並創建 dataframe 然后存儲到 Hudi 中時: 我收到以下異常: 將所有kafka數據存儲到Hudi表中 ...
[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:
當我使用 spark 連接到 kafka 主題並創建 dataframe 然后存儲到 Hudi 中時: 我收到以下異常: 將所有kafka數據存儲到Hudi表中 ...
[英]Creating an Athena view on a HUDI table returns soft deleted records when the view is read using SPARK
我有多個具有不同列名的 HUDI 表,我在其上構建了一個視圖以標准化列名。 從 Athena 讀取此視圖時,它會返回正確的響應。 但是,當使用 SPARK 使用 spark.read.parquet("<>") 讀取相同的視圖時,它也會返回軟刪除的記錄。 我知道需要使用 spark.re ...
[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis
我目前配置了一個 DynamoDB stream,它在插入/更新發生時將流輸入到 Kinesis 數據流中,隨后我有 Glue 表,它從上面的 kinesis stream 獲取輸入,然后顯示結構模式,還有一個 Glue 腳本幫助我創建一個可以使用 Athena 訪問的 Hudi 表。 我目前能夠 ...
[英]Apache Hudi Upsert/Insert/Deletes at the same time
我們可以同時對同一張表運行寫入操作類型Upsert和Delete嗎? Apache Hudi meta 是否已損壞?? 請在這里幫助使用其他解決方案(如果有的話)來做同樣的事情。 提前致謝 !! ...
[英]Hudi with Spark perform very slow when trying to write data into filesystem
我正在通過一個非常簡單的演示使用 Spark 嘗試 Apache Hudi: 目錄下大概有10個parquet文件; 它們的總大小為 1GB,大約 600 萬條記錄。 但是 Hudi 寫的時間很長,失敗了org.apache.spark.SparkException: Job aborted due ...
[英]How to encrypt apache hudi external tables data present in s3 synced into hive tables through spark jobs
技術背景:我正在從 kafka 獲取表數據並使用 spark 將其放入 hudi 和 hive 表中。 我正在使用 AWS EMR。 我想加密集群內傳輸的數據以及 s3 中存在的同步外部表數據(靜態數據) 注意:我不想使用 AWS EMR 加密,想使用 spark 或 hudi 加密,不想只堅持 A ...
[英]Hudi overwriting the tables with back date data
我正在將一些初始批量數據推送到一個 hudi 表中,然后每天,我將增量數據寫入其中。 但是,如果返回數據到達,則表中已經存在的最新預組合字段將被忽略,到達的預組合字段(較舊的)將其覆蓋。 我使用以下配置編寫了一個包含以下數據的數據框: 然后在下一次運行中,我更新了以下數據: 並獲取此表: 這不應該發 ...
[英]Apache Hudi create and append Upsert table (Parquet-format) on Dataproc & Cloud Storage
又是 Dataproc-noob。 我的主要目標是從本地源提取表,將它們作為 Parquet 文件存儲在 Cloud Storage 存儲桶中,並根據我之前關於 Dataproc 和 Hudi conf 的帖子在 BigQuery 中創建/更新表,我能夠通過 Dataproc/PySpark/Hu ...
[英]Apache Hudi on Dataproc
是否有在 Dataproc 集群上部署 Apache Hudi 的指南? 我正在嘗試通過Hudi 快速入門指南進行部署,但我不能。 火花 3.1.1 Python 3.8.13 Debian 5.10.127 x86_64 啟動代碼: 嘗試: 錯誤: 編輯 1: 拋出配置錯誤警告 org.ap ...
[英]How to set custom hudi field for _hoodie_commit_time metadata column?
Hudi 默認基於當前時間攝取時間線。 我想更改此行為並在攝取期間使用我自己的日期時間字段。 我想使用 hudi 表僅存儲最新的 state(最后一次提交)。 在某些情況下,數據會出現延遲,但此數據不應覆蓋以前的記錄(如果它有最新更新)。 我的所有記錄都有last_update_time日期時間 ...
[英]Error to write hudi table into minio s3 bucket by flink SQL
問題我正在嘗試通過 flink SQL 將 hudi 表寫入 minio s3 存儲桶,但它失敗了。 hudi表創建完成,但只包含元數據 diretory.hoodie 目錄樹如下: 重現重現該行為的步驟: 創建 Flink Hudi 表 往Hudi表中插入數據 環境說明胡迪版本:0.12.0 ...
[英]How to insert struct, map type in Apache Hudi
我看官方文檔,沒有關於插入struct和map等復雜類型的示例。 那么,語法是什么? 我的表定義:spark-sql> desc struct_map; _hoodie_commit_time string NULL _hoodie_commit_seqno string N ...
[英]How to remove 'before' key from payload generated by debezium event for updates in SQL server
對於 SQL 服務器中的每次更新,debezium 都會生成帶有“之后”和“之前”的事件有效負載。 我想在不壓扁有效負載的情況下擺脫“之前”。 用例: 我將 debezium 與 Kafka 和 hudi 一起使用,並創建了一個數據湖,我不需要刪除操作,所以我跳過了刪除操作。 所以我想通過消除“之前 ...
[英]Pyspark streaming from Kafka to Hudi
我是 hudi 的新手,但遇到了問題。 我正在使用 pyspark、Kafka 在 AWS 中使用 EMR,我想做的是使用 pyspark 流從 Kafka 集群讀取主題,然后以 hudi 格式將其移動到 S3。 老實說,自幾周前以來我已經嘗試了很多,但我不知道這是否可行。 有人可以告訴我嗎? 我 ...
[英]How to exclude either files or folder paths on S3 within an AWS Glue job when reading an Athena table?
我們有一個 AWS Glue 作業試圖從 HUDI 填充的 Athena 表中讀取數據。 不幸的是,我們遇到了一個與create_dynamic_frame.from_catalog試圖從這些表中讀取相關的錯誤。 調用 o82.getDynamicFrame 時出錯。 s3://bucket/f ...
[英]Can I use incremental, time travel, and snapshot queries with hudi only using spark-sql?
我正在嘗試使用帶有 hudi 的 spark-sql 進行增量查詢、快照查詢和時間旅行查詢,但我能找到的唯一方法是使用 spark.read 創建一個 DataFrame,然后創建一個臨時視圖。 有沒有辦法只使用 spark-sql 來完成這個? 這是在 EMR 集群中,版本 6.6.0。 ...
[英]How to add Hudi Package to local AWS Glue Interactive Notebook
我已經按照https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions.html在本地設置了 Glue Interactive 會話但是,我無法向交互式 session 添加任何其他包,例如 HUDI 有一些神奇的命令可以使用,但不 ...
[英]org.apache.flink.table.api.TableException: Unsupported query: Merge Into
我正在從事 Flink 流式傳輸工作,我需要在 Hudi 表中插入數據。 我正在使用合並到查詢中來更新 Hudi 表中的數據。 此查詢在 spark-shell 中運行良好。 But it is giving me Exception in thread "main" org.apache.fli ...
[英]Can Apache Hudi be used to upsert a row from Apache Spark dataframe into Postgres database?
問題陳述:Apache Spark 中沒有對數據庫的更新插入功能,而是我們必須覆蓋整個表。 但是 Apache Hudi 可用於在不覆蓋整個表的情況下向表中插入一行或多行。 我了解 Apache Hudi 是可以與 S3 一起使用的表/文件格式。 但它也可以與 Postgresdb 或 MySql ...