簡體   English   中英

AWS Glue和Python集成

[英]AWS Glue and Python Integration

我有一個存在於python中的數據規范化過程,但現在需要擴展。 當前,此過程通過特定於作業的配置文件運行,該配置文件包含需要應用於該作業的數據表的一系列轉換功能。 轉換功能是互斥的,可以按任何順序應用。 所有轉換功能都存在於庫中,並且只有在特定於作業的配置文件中列出時,才導入並應用於數據。 不同的作業將在該作業的配置中列出不同的必需功能,但是所有功能將存在於庫中。

從最一般的意義上講,AWS Glue如何處理這樣的過程? 我不需要一個技術示例,而只是一個高級概述。 只是想知道一些選擇。 謝謝!

使用AWS粘合時,您需要考慮的最重要的一件事情就是帶有擴展的無服務器基於 Spark 環境。 這意味着您將需要使腳本適應pySpark風格。 如果可以,那么您可以按照AWS Glue文檔中的說明使用外部python庫

如果您已經在運行腳本,並且不想使用Spark,則可以隨時考慮使用AWS Data Pipeline 這是一項服務,可以通過多種方式運行數據轉換,而不僅僅是Spark。 不利的一面是,AWS Data Pipeline是任務驅動的,而不是數據驅動的,這意味着沒有目錄或架構管理。

閱讀文檔時,如果要在Python上使用AWS Data Pipeline並不明顯,但是該過程基本上是將shell文件分段放置到S3中,並附有設置python環境和調用腳本的說明。 然后,您為管道配置調度,AWS會在需要時啟動虛擬機,然后再停止。 在stackoverflow上有一篇不錯的文章

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM