[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis
[英]Is there a way to use Apache Hudi on AWS glue?
尝试探索 apach hudi 使用 S3 作为源进行增量加载,然后最终通过 AWS 粘合作业将 output 保存到 S3 中的不同位置。
任何可以在这里作为起点的博客/文章?
所以我不完全确定你的用例,但这篇文章可能对你有帮助。
这是关于如何通过 Glue Custom 连接器连接到 Hudi。
还有另一种可能的方法(根据罗伯特的回答),将自定义 jars 包含到胶水作业中。 然后这些将被加载到您的胶水作业中,并可以在任何其他 hadoop/spark 环境中使用。
实现此方法所需的步骤如下(至少这些工作适用于我的 pyspark 工作,如果您发现一些信息没有用尽或遇到麻烦,请纠正我,我会更新我的答案):
注 1 :以下是批量写入,未针对 hudi 流进行测试
注 2 :胶水作业类型:Spark,胶水版本:2.0,ETL 语言:python
最后一点:确保为您的胶水作业分配适当的权限
您可以使用https://github.com/awslabs/aws-glue-catalog-sync-agent-for-hive将 hudi 元数据同步到 Glue 目录。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.