簡體   English   中英

AWS 中的文件轉換

[英]File conversion in AWS

我試圖找到在 AWS 中處理文件的最有效方法。

  1. 從 S3 存儲桶中讀取 json、xml、csv
  2. 將其映射到另一種類型的 json、xml、csv
  3. 將其保存到 S3 存儲桶

現在我們將 Java 與 AWS lambda 一起使用,但我們編寫了很多代碼。 AWS Data Glue 看起來不錯,但我對 MS BizTalk 的體驗更好。

有什么服務可以幫我解決這個問題嗎?

AWS 中有許多選項可用於從一種文件格式讀取並將其寫入 s3 存儲桶中的另一種文件格式。 以下是一些選項 -

A) AWS SDK for Pandas (DataWrangler) ,它是 AWS ProServe 的開源 Python 庫。 您可以從 Lambda 或任何其他服務器運行它。 它提供了幾個開箱即用的連接器,用於從各種源和接收器讀取、寫入數據。 如果體積較小,則可以使用此選項。 它還提供了從 Amazon Lambda 或可以安裝 SDK 的任何其他服務器使用它的靈活性。

B) AWS Glue使用 Spark 或 Python,這是一種無服務器數據集成服務。 這也提供了一個拖放選項,使用 Glue Studio 使用許多開箱即用的轉換來生成數據管道。 可以通過使用所需數量的數據處理單元 (DPU) 來控制處理窗口。 它還具有用於編排的 Glue Workflow。

C) EMR ,這是一種 PB 級規模的 AWS 服務,可用於使用 Apache Spark 等開源框架進行大容量分布式數據處理、機器學習和交互式分析。

選擇哪個選項取決於要解決的用例和要求。 數據量、處理窗口、低代碼\無代碼選項、成本等其他因素將有助於決定利用哪個選項。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM