[英]Best way to convert JSON to Apache Parquet format using aws
我一直在做一個項目,我一直在將物聯網數據存儲在 s3 存儲桶中並使用 aws kinesis firehose 對它們進行批處理,我有一個 lambda function 在交付 stream 上運行,我將紀元毫秒時間轉換為具有日期的正確時間戳和時間。 這是我的示例 JSON 有效負載
{
"device_name":"inHand-RTU",
"Temperature":22.3,
"Pyranometer":6,
"Active-Power":0,
"Voltage-1":233.93,
"Active-Import":2.57,
"time":"17-01-2023 10:49:09"
}
我現在想將 s3 中的這些文件轉換為鑲木地板文件,然后使用 apache pyspark 對它們進行處理。最好的方法是什么? 我應該使用 kinesis firehose 本身,它提供將數據轉換為鑲木地板格式的功能,還是應該使用 aws 膠水作業 go。 這兩種服務做同樣的事情。 兩者有什么區別? 我應該遵循哪種方法?
任何幫助將不勝感激。
最好的方法是使用原生鑲木地板轉換作為 firehose 的一部分。
Firehose 有一個選項(轉換記錄格式 - 啟用它)在將它們傳送到 S3 之前轉換為 parquet 或 Orc 格式
https://docs.aws.amazon.com/firehose/latest/dev/create-transform.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.