![](/img/trans.png)
[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis
[英]Is there a way to use Apache Hudi on AWS glue?
嘗試探索 apach hudi 使用 S3 作為源進行增量加載,然后最終通過 AWS 粘合作業將 output 保存到 S3 中的不同位置。
任何可以在這里作為起點的博客/文章?
所以我不完全確定你的用例,但這篇文章可能對你有幫助。
這是關於如何通過 Glue Custom 連接器連接到 Hudi。
還有另一種可能的方法(根據羅伯特的回答),將自定義 jars 包含到膠水作業中。 然后這些將被加載到您的膠水作業中,並可以在任何其他 hadoop/spark 環境中使用。
實現此方法所需的步驟如下(至少這些工作適用於我的 pyspark 工作,如果您發現一些信息沒有用盡或遇到麻煩,請糾正我,我會更新我的答案):
注 1 :以下是批量寫入,未針對 hudi 流進行測試
注 2 :膠水作業類型:Spark,膠水版本:2.0,ETL 語言:python
最后一點:確保為您的膠水作業分配適當的權限
您可以使用https://github.com/awslabs/aws-glue-catalog-sync-agent-for-hive將 hudi 元數據同步到 Glue 目錄。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.