簡體   English   中英

使用aws將JSON轉換為Apache Parquet格式的最佳方法

[英]Best way to convert JSON to Apache Parquet format using aws

我一直在做一個項目,我一直在將物聯網數據存儲在 s3 存儲桶中並使用 aws kinesis firehose 對它們進行批處理,我有一個 lambda function 在交付 stream 上運行,我將紀元毫秒時間轉換為具有日期的正確時間戳和時間。 這是我的示例 JSON 有效負載

{
     "device_name":"inHand-RTU",
     "Temperature":22.3,
     "Pyranometer":6,
     "Active-Power":0,
     "Voltage-1":233.93,
     "Active-Import":2.57,
     "time":"17-01-2023 10:49:09"
}

我現在想將 s3 中的這些文件轉換為鑲木地板文件,然后使用 apache pyspark 對它們進行處理。最好的方法是什么? 我應該使用 kinesis firehose 本身,它提供將數據轉換為鑲木地板格式的功能,還是應該使用 aws 膠水作業 go。 這兩種服務做同樣的事情。 兩者有什么區別? 我應該遵循哪種方法?

任何幫助將不勝感激。

最好的方法是使用原生鑲木地板轉換作為 firehose 的一部分。

Firehose 有一個選項(轉換記錄格式 - 啟用它)在將它們傳送到 S3 之前轉換為 parquet 或 Orc 格式

https://docs.aws.amazon.com/firehose/latest/dev/create-transform.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM