簡體 English 中英

有沒有辦法在 AWS 膠水上使用 Apache Hudi？

[英]Is there a way to use Apache Hudi on AWS glue?

原文 2021-04-28 10:32:09 6 1 apache-spark/ amazon-s3/ aws-glue/ apache-hudi

嘗試探索 apach hudi 使用 S3 作為源進行增量加載，然后最終通過 AWS 粘合作業將 output 保存到 S3 中的不同位置。

任何可以在這里作為起點的博客/文章？

1 個解決方案

所以我不完全確定你的用例，但這篇文章可能對你有幫助。

這是關於如何通過 Glue Custom 連接器連接到 Hudi。

還有另一種可能的方法（根據羅伯特的回答），將自定義 jars 包含到膠水作業中。 然后這些將被加載到您的膠水作業中，並可以在任何其他 hadoop/spark 環境中使用。

實現此方法所需的步驟如下（至少這些工作適用於我的 pyspark 工作，如果您發現一些信息沒有用盡或遇到麻煩，請糾正我，我會更新我的答案）：

注 1 ：以下是批量寫入，未針對 hudi 流進行測試
注 2 ：膠水作業類型：Spark，膠水版本：2.0，ETL 語言：python

獲取 hudi 所需的所有 jars 並放入 S3：
- hudi-spark-bundle_2.11
- httpclient-4.5.9
- 火花avro_2.11
創建粘合作業時（見注 2），指定：
- 依賴 jars 路徑= jars 的逗號分隔路徑，從點號開始。 1（例如 s3://your-bucket/some_prefix/hudi-spark-bundle...jar,s3://your-bucket/some_prefix/http...jar,s3://your-bucket/some_prefix/spark -avro ....罐子）
根據hudi 文檔中提供的文檔創建您的腳本並盡情享受吧！

最后一點：確保為您的膠水作業分配適當的權限

您可以使用https://github.com/awslabs/aws-glue-catalog-sync-agent-for-hive將 hudi 元數據同步到 Glue 目錄。

從 Apache Hudi 表中刪除記錄，這是使用 AWS Glue Job 和 Kinesis 創建的 Glue 表的一部分

[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis

如何將Hudi Package添加到本地AWS Glue Interactive Notebook

[英]How to add Hudi Package to local AWS Glue Interactive Notebook

Apache Hudi on Dataproc

[英]Apache Hudi on Dataproc

Hudi-Glue-與EMR集群集成

[英]Hudi-Glue-Integration with EMR cluster

您能否在 AWS Glue 中使用 PySpark 而不是 Glue PySpark？

[英]Can you use PySpark instead of Glue PySpark in AWS Glue?

有沒有辦法知道在 S3 表中寫入的最后一個分區是什么，用於 AWS Glue 作業中的下推謂詞？

[英]Is there a way to know what was the last partition written in S3 table to use for a push down predicate in AWS Glue Job?

Apache Iceberg 表無法在 AWS EMR 中使用 AWS Glue

[英]Apache Iceberg tables not working with AWS Glue in AWS EMR

可以在 AWS Glue 3.0 中使用 Spark 3.3.0

[英]It is possible use Spark 3.3.0 in AWS Glue 3.0

如何為 AWS 膠水工作使用額外的文件

[英]How to use extra files for AWS glue job

如何使用 CloudFormation 更新 AWS Glue 作業

[英]How to use CloudFormation to update AWS Glue Jobs

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從 Apache Hudi 表中刪除記錄，這是使用 AWS Glue Job 和 Kinesis 創建的 Glue 表的一部分如何將Hudi Package添加到本地AWS Glue Interactive Notebook Apache Hudi on Dataproc Hudi-Glue-與EMR集群集成您能否在 AWS Glue 中使用 PySpark 而不是 Glue PySpark？有沒有辦法知道在 S3 表中寫入的最后一個分區是什么，用於 AWS Glue 作業中的下推謂詞？ Apache Iceberg 表無法在 AWS EMR 中使用 AWS Glue 可以在 AWS Glue 3.0 中使用 Spark 3.3.0 如何為 AWS 膠水工作使用額外的文件如何使用 CloudFormation 更新 AWS Glue 作業

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM