[英]AWS Glue and Python Integration
我有一個存在於python中的數據規范化過程,但現在需要擴展。 當前,此過程通過特定於作業的配置文件運行,該配置文件包含需要應用於該作業的數據表的一系列轉換功能。 轉換功能是互斥的,可以按任何順序應用。 所有轉換功能都存在於庫中,並且只有在特定於作業的配置文件中列出時,才導入並應用於數據。 不同的作業將在該作業的配置中列出不同的必需功能,但是所有功能將存在於庫中。
從最一般的意義上講,AWS Glue如何處理這樣的過程? 我不需要一個技術示例,而只是一個高級概述。 只是想知道一些選擇。 謝謝!
使用AWS粘合時,您需要考慮的最重要的一件事情就是帶有擴展的無服務器基於 Spark 的環境。 這意味着您將需要使腳本適應pySpark風格。 如果可以,那么您可以按照AWS Glue文檔中的說明使用外部python庫
如果您已經在運行腳本,並且不想使用Spark,則可以隨時考慮使用AWS Data Pipeline 。 這是一項服務,可以通過多種方式運行數據轉換,而不僅僅是Spark。 不利的一面是,AWS Data Pipeline是任務驅動的,而不是數據驅動的,這意味着沒有目錄或架構管理。
閱讀文檔時,如果要在Python上使用AWS Data Pipeline並不明顯,但是該過程基本上是將shell文件分段放置到S3中,並附有設置python環境和調用腳本的說明。 然后,您為管道配置調度,AWS會在需要時啟動虛擬機,然后再停止。 您在stackoverflow上有一篇不錯的文章
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.