簡體 English 中英

AWS Glue和Python集成

[英]AWS Glue and Python Integration

原文 2019-02-27 00:54:25 6 1 python/ amazon-web-services/ aws-glue

我有一個存在於python中的數據規范化過程，但現在需要擴展。 當前，此過程通過特定於作業的配置文件運行，該配置文件包含需要應用於該作業的數據表的一系列轉換功能。 轉換功能是互斥的，可以按任何順序應用。 所有轉換功能都存在於庫中，並且只有在特定於作業的配置文件中列出時，才導入並應用於數據。 不同的作業將在該作業的配置中列出不同的必需功能，但是所有功能將存在於庫中。

從最一般的意義上講，AWS Glue如何處理這樣的過程？ 我不需要一個技術示例，而只是一個高級概述。 只是想知道一些選擇。 謝謝！

1 個解決方案

使用AWS粘合時，您需要考慮的最重要的一件事情就是帶有擴展的無服務器基於 Spark 的環境。 這意味着您將需要使腳本適應pySpark風格。 如果可以，那么您可以按照AWS Glue文檔中的說明使用外部python庫

如果您已經在運行腳本，並且不想使用Spark，則可以隨時考慮使用AWS Data Pipeline 。 這是一項服務，可以通過多種方式運行數據轉換，而不僅僅是Spark。 不利的一面是，AWS Data Pipeline是任務驅動的，而不是數據驅動的，這意味着沒有目錄或架構管理。

閱讀文檔時，如果要在Python上使用AWS Data Pipeline並不明顯，但是該過程基本上是將shell文件分段放置到S3中，並附有設置python環境和調用腳本的說明。 然后，您為管道配置調度，AWS會在需要時啟動虛擬機，然后再停止。 您在stackoverflow上有一篇不錯的文章