繁体 English 中英

有没有办法在 AWS 胶水上使用 Apache Hudi？

[英]Is there a way to use Apache Hudi on AWS glue?

原文 2021-04-28 10:32:09 4 1 apache-spark/ amazon-s3/ aws-glue/ apache-hudi

尝试探索 apach hudi 使用 S3 作为源进行增量加载，然后最终通过 AWS 粘合作业将 output 保存到 S3 中的不同位置。

任何可以在这里作为起点的博客/文章？

1 个解决方案

所以我不完全确定你的用例，但这篇文章可能对你有帮助。

这是关于如何通过 Glue Custom 连接器连接到 Hudi。

还有另一种可能的方法（根据罗伯特的回答），将自定义 jars 包含到胶水作业中。 然后这些将被加载到您的胶水作业中，并可以在任何其他 hadoop/spark 环境中使用。

实现此方法所需的步骤如下（至少这些工作适用于我的 pyspark 工作，如果您发现一些信息没有用尽或遇到麻烦，请纠正我，我会更新我的答案）：

注 1 ：以下是批量写入，未针对 hudi 流进行测试
注 2 ：胶水作业类型：Spark，胶水版本：2.0，ETL 语言：python

获取 hudi 所需的所有 jars 并放入 S3：
- hudi-spark-bundle_2.11
- httpclient-4.5.9
- 火花avro_2.11
创建粘合作业时（见注 2），指定：
- 依赖 jars 路径= jars 的逗号分隔路径，从点号开始。 1（例如 s3://your-bucket/some_prefix/hudi-spark-bundle...jar,s3://your-bucket/some_prefix/http...jar,s3://your-bucket/some_prefix/spark -avro ....罐子）
根据hudi 文档中提供的文档创建您的脚本并尽情享受吧！

最后一点：确保为您的胶水作业分配适当的权限

您可以使用https://github.com/awslabs/aws-glue-catalog-sync-agent-for-hive将 hudi 元数据同步到 Glue 目录。

从 Apache Hudi 表中删除记录，这是使用 AWS Glue Job 和 Kinesis 创建的 Glue 表的一部分

[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis

如何将Hudi Package添加到本地AWS Glue Interactive Notebook

[英]How to add Hudi Package to local AWS Glue Interactive Notebook

Apache Hudi on Dataproc

[英]Apache Hudi on Dataproc

Hudi-Glue-与EMR集群集成

[英]Hudi-Glue-Integration with EMR cluster

您能否在 AWS Glue 中使用 PySpark 而不是 Glue PySpark？

[英]Can you use PySpark instead of Glue PySpark in AWS Glue?

有没有办法知道在 S3 表中写入的最后一个分区是什么，用于 AWS Glue 作业中的下推谓词？

[英]Is there a way to know what was the last partition written in S3 table to use for a push down predicate in AWS Glue Job?

Apache Iceberg 表无法在 AWS EMR 中使用 AWS Glue

[英]Apache Iceberg tables not working with AWS Glue in AWS EMR

可以在 AWS Glue 3.0 中使用 Spark 3.3.0

[英]It is possible use Spark 3.3.0 in AWS Glue 3.0

如何为 AWS 胶水工作使用额外的文件

[英]How to use extra files for AWS glue job

如何使用 CloudFormation 更新 AWS Glue 作业

[英]How to use CloudFormation to update AWS Glue Jobs

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从 Apache Hudi 表中删除记录，这是使用 AWS Glue Job 和 Kinesis 创建的 Glue 表的一部分如何将Hudi Package添加到本地AWS Glue Interactive Notebook Apache Hudi on Dataproc Hudi-Glue-与EMR集群集成您能否在 AWS Glue 中使用 PySpark 而不是 Glue PySpark？有没有办法知道在 S3 表中写入的最后一个分区是什么，用于 AWS Glue 作业中的下推谓词？ Apache Iceberg 表无法在 AWS EMR 中使用 AWS Glue 可以在 AWS Glue 3.0 中使用 Spark 3.3.0 如何为 AWS 胶水工作使用额外的文件如何使用 CloudFormation 更新 AWS Glue 作业

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM