簡體   English   中英

有沒有辦法在 AWS 膠水上使用 Apache Hudi?

[英]Is there a way to use Apache Hudi on AWS glue?

嘗試探索 apach hudi 使用 S3 作為源進行增量加載,然后最終通過 AWS 粘合作業將 output 保存到 S3 中的不同位置。

任何可以在這里作為起點的博客/文章?

所以我不完全確定你的用例,但這篇文章可能對你有幫助。

這是關於如何通過 Glue Custom 連接器連接到 Hudi。

還有另一種可能的方法(根據羅伯特的回答),將自定義 jars 包含到膠水作業中。 然后這些將被加載到您的膠水作業中,並可以在任何其他 hadoop/spark 環境中使用。

實現此方法所需的步驟如下(至少這些工作適用於我的 pyspark 工作,如果您發現一些信息沒有用盡或遇到麻煩,請糾正我,我會更新我的答案):

注 1 :以下是批量寫入,未針對 hudi 流進行測試
注 2 :膠水作業類型:Spark,膠水版本:2.0,ETL 語言:python

  1. 獲取 hudi 所需的所有 jars 並放入 S3:
    • hudi-spark-bundle_2.11
    • httpclient-4.5.9
    • 火花avro_2.11
  2. 創建粘合作業時(見注 2),指定:
    • 依賴 jars 路徑= jars 的逗號分隔路徑,從點號開始。 1(例如 s3://your-bucket/some_prefix/hudi-spark-bundle...jar,s3://your-bucket/some_prefix/http...jar,s3://your-bucket/some_prefix/spark -avro ....罐子)
  3. 根據hudi 文檔中提供的文檔創建您的腳本並盡情享受吧!

最后一點:確保為您的膠水作業分配適當的權限

您可以使用https://github.com/awslabs/aws-glue-catalog-sync-agent-for-hive將 hudi 元數據同步到 Glue 目錄。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM