使用 Pyspark 和 Glue Jobs 从 Redshift 到 S3 的增量数据加载

Question

我创建了一个管道，其中数据摄取发生在 Redshift 和 S3 之间。 我能够使用以下方法完成完整的加载：

def readFromRedShift(spark: SparkSession, schema, tablename):
        table = str(schema) + str(".") + str(tablename)
        (url, Properties, host, port, db) = con.getConnection("REDSHIFT")
        df = spark.read.jdbc(url=url, table=table, properties=Properties)
        return df

其中getConnection是一个单独的 class 下的不同方法，它处理所有与红移相关的细节。 后来，我使用这种方法创建了一个数据框，并将结果写入 S3，效果非常好。

现在，我想加载增量数据。 enabling Job Bookmarks Glue 选项对我有帮助吗？ 或者还有其他方法吗？ 我遵循了这个官方文档，但对我的问题陈述没有帮助。 那么，如果我第一次运行它会加载完整的数据，如果我重新运行它是否能够加载新到达的记录？

Answer 1

你是对的。 它可以通过使用工作书签来实现，但同时它可能有点棘手。 请参阅此文档https://aws.amazon.com/blogs/big-data/load-data-incrementally-and-optimized-parquet-writer-with-aws-glue/

使用 Pyspark 和 Glue Jobs 从 Redshift 到 S3 的增量数据加载

问题描述

1 个解决方案

解决方案1
0 2021-09-28 21:11:10

使用 Pyspark 和 Glue Jobs 从 Redshift 到 S3 的增量数据加载

问题描述

1 个解决方案

解决方案1 0 2021-09-28 21:11:10

解决方案1
0 2021-09-28 21:11:10