繁体   English   中英

有没有办法在 AWS 胶水上使用 Apache Hudi?

[英]Is there a way to use Apache Hudi on AWS glue?

尝试探索 apach hudi 使用 S3 作为源进行增量加载,然后最终通过 AWS 粘合作业将 output 保存到 S3 中的不同位置。

任何可以在这里作为起点的博客/文章?

所以我不完全确定你的用例,但这篇文章可能对你有帮助。

这是关于如何通过 Glue Custom 连接器连接到 Hudi。

还有另一种可能的方法(根据罗伯特的回答),将自定义 jars 包含到胶水作业中。 然后这些将被加载到您的胶水作业中,并可以在任何其他 hadoop/spark 环境中使用。

实现此方法所需的步骤如下(至少这些工作适用于我的 pyspark 工作,如果您发现一些信息没有用尽或遇到麻烦,请纠正我,我会更新我的答案):

注 1 :以下是批量写入,未针对 hudi 流进行测试
注 2 :胶水作业类型:Spark,胶水版本:2.0,ETL 语言:python

  1. 获取 hudi 所需的所有 jars 并放入 S3:
    • hudi-spark-bundle_2.11
    • httpclient-4.5.9
    • 火花avro_2.11
  2. 创建粘合作业时(见注 2),指定:
    • 依赖 jars 路径= jars 的逗号分隔路径,从点号开始。 1(例如 s3://your-bucket/some_prefix/hudi-spark-bundle...jar,s3://your-bucket/some_prefix/http...jar,s3://your-bucket/some_prefix/spark -avro ....罐子)
  3. 根据hudi 文档中提供的文档创建您的脚本并尽情享受吧!

最后一点:确保为您的胶水作业分配适当的权限

您可以使用https://github.com/awslabs/aws-glue-catalog-sync-agent-for-hive将 hudi 元数据同步到 Glue 目录。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM