cost 234 ms
當使用 SPARK 讀取視圖時,在 HUDI 表上創建 Athena 視圖會返回軟刪除記錄

[英]Creating an Athena view on a HUDI table returns soft deleted records when the view is read using SPARK

我有多個具有不同列名的 HUDI 表,我在其上構建了一個視圖以標准化列名。 從 Athena 讀取此視圖時,它會返回正確的響應。 但是,當使用 SPARK 使用 spark.read.parquet("<>") 讀取相同的視圖時,它也會返回軟刪除的記錄。 我知道需要使用 spark.re ...

從 Apache Hudi 表中刪除記錄,這是使用 AWS Glue Job 和 Kinesis 創建的 Glue 表的一部分

[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis

我目前配置了一個 DynamoDB stream,它在插入/更新發生時將流輸入到 Kinesis 數據流中,隨后我有 Glue 表,它從上面的 kinesis stream 獲取輸入,然后顯示結構模式,還有一個 Glue 腳本幫助我創建一個可以使用 Athena 訪問的 Hudi 表。 我目前能夠 ...

Apache Hudi Upsert/Insert/Deletes 同時進行

[英]Apache Hudi Upsert/Insert/Deletes at the same time

我們可以同時對同一張表運行寫入操作類型Upsert和Delete嗎? Apache Hudi meta 是否已損壞?? 請在這里幫助使用其他解決方案(如果有的話)來做同樣的事情。 提前致謝 !! ...

嘗試將數據寫入文件系統時,帶有 Spark 的 Hudi 執行速度非常慢

[英]Hudi with Spark perform very slow when trying to write data into filesystem

我正在通過一個非常簡單的演示使用 Spark 嘗試 Apache Hudi: 目錄下大概有10個parquet文件; 它們的總大小為 1GB,大約 600 萬條記錄。 但是 Hudi 寫的時間很長,失敗了org.apache.spark.SparkException: Job aborted due ...

如何加密s3中存在的apache hudi外部表數據通過spark作業同步到hive表中

[英]How to encrypt apache hudi external tables data present in s3 synced into hive tables through spark jobs

技術背景:我正在從 kafka 獲取表數據並使用 spark 將其放入 hudi 和 hive 表中。 我正在使用 AWS EMR。 我想加密集群內傳輸的數據以及 s3 中存在的同步外部表數據(靜態數據) 注意:我不想使用 AWS EMR 加密,想使用 spark 或 hudi 加密,不想只堅持 A ...

Hudi 用回溯數據覆蓋表格

[英]Hudi overwriting the tables with back date data

我正在將一些初始批量數據推送到一個 hudi 表中,然后每天,我將增量數據寫入其中。 但是,如果返回數據到達,則表中已經存在的最新預組合字段將被忽略,到達的預組合字段(較舊的)將其覆蓋。 我使用以下配置編寫了一個包含以下數據的數據框: 然后在下一次運行中,我更新了以下數據: 並獲取此表: 這不應該發 ...

Apache Hudi 創建和 append Dataproc 和 Cloud Storage 上的 Upsert 表(Parquet 格式)

[英]Apache Hudi create and append Upsert table (Parquet-format) on Dataproc & Cloud Storage

又是 Dataproc-noob。 我的主要目標是從本地源提取表,將它們作為 Parquet 文件存儲在 Cloud Storage 存儲桶中,並根據我之前關於 Dataproc 和 Hudi conf 的帖子在 BigQuery 中創建/更新表,我能夠通過 Dataproc/PySpark/Hu ...

Apache Hudi on Dataproc

[英]Apache Hudi on Dataproc

是否有在 Dataproc 集群上部署 Apache Hudi 的指南? 我正在嘗試通過Hudi 快速入門指南進行部署,但我不能。 火花 3.1.1 Python 3.8.13 Debian 5.10.127 x86_64 啟動代碼: 嘗試: 錯誤: 編輯 1: 拋出配置錯誤警告 org.ap ...

如何為 _hoodie_commit_time 元數據列設置自定義 hudi 字段?

[英]How to set custom hudi field for _hoodie_commit_time metadata column?

Hudi 默認基於當前時間攝取時間線。 我想更改此行為並在攝取期間使用我自己的日期時間字段。 我想使用 hudi 表僅存儲最新的 state(最后一次提交)。 在某些情況下,數據會出現延遲,但此數據不應覆蓋以前的記錄(如果它有最新更新)。 我的所有記錄都有last_update_time日期時間 ...

flink SQL 將hudi表寫入minio s3 bucket報錯

[英]Error to write hudi table into minio s3 bucket by flink SQL

問題我正在嘗試通過 flink SQL 將 hudi 表寫入 minio s3 存儲桶,但它失敗了。 hudi表創建完成,但只包含元數據 diretory.hoodie 目錄樹如下: 重現重現該行為的步驟: 創建 Flink Hudi 表 往Hudi表中插入數據 環境說明胡迪版本:0.12.0 ...

如何從 debezium 事件為 SQL 服務器中的更新生成的有效載荷中刪除“之前”鍵

[英]How to remove 'before' key from payload generated by debezium event for updates in SQL server

對於 SQL 服務器中的每次更新,debezium 都會生成帶有“之后”和“之前”的事件有效負載。 我想在不壓扁有效負載的情況下擺脫“之前”。 用例: 我將 debezium 與 Kafka 和 hudi 一起使用,並創建了一個數據湖,我不需要刪除操作,所以我跳過了刪除操作。 所以我想通過消除“之前 ...

Pyspark 從 Kafka 流向 Hudi

[英]Pyspark streaming from Kafka to Hudi

我是 hudi 的新手,但遇到了問題。 我正在使用 pyspark、Kafka 在 AWS 中使用 EMR,我想做的是使用 pyspark 流從 Kafka 集群讀取主題,然后以 hudi 格式將其移動到 S3。 老實說,自幾周前以來我已經嘗試了很多,但我不知道這是否可行。 有人可以告訴我嗎? 我 ...

讀取 Athena 表時,如何在 AWS Glue 作業中排除 S3 上的文件或文件夾路徑?

[英]How to exclude either files or folder paths on S3 within an AWS Glue job when reading an Athena table?

我們有一個 AWS Glue 作業試圖從 HUDI 填充的 Athena 表中讀取數據。 不幸的是,我們遇到了一個與create_dynamic_frame.from_catalog試圖從這些表中讀取相關的錯誤。 調用 o82.getDynamicFrame 時出錯。 s3://bucket/f ...

我可以僅使用 spark-sql 對 hudi 使用增量查詢、時間旅行查詢和快照查詢嗎?

[英]Can I use incremental, time travel, and snapshot queries with hudi only using spark-sql?

我正在嘗試使用帶有 hudi 的 spark-sql 進行增量查詢、快照查詢和時間旅行查詢,但我能找到的唯一方法是使用 spark.read 創建一個 DataFrame,然后創建一個臨時視圖。 有沒有辦法只使用 spark-sql 來完成這個? 這是在 EMR 集群中,版本 6.6.0。 ...

可以使用 Apache Hudi 將一行從 Apache Spark dataframe 插入 Postgres 數據庫嗎?

[英]Can Apache Hudi be used to upsert a row from Apache Spark dataframe into Postgres database?

問題陳述:Apache Spark 中沒有對數據庫的更新插入功能,而是我們必須覆蓋整個表。 但是 Apache Hudi 可用於在不覆蓋整個表的情況下向表中插入一行或多行。 我了解 Apache Hudi 是可以與 S3 一起使用的表/文件格式。 但它也可以與 Postgresdb 或 MySql ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM