繁体   English   中英

使用 Pyspark 和 Glue Jobs 从 Redshift 到 S3 的增量数据加载

[英]Incremental data load from Redshift to S3 using Pyspark and Glue Jobs

我创建了一个管道,其中数据摄取发生在 Redshift 和 S3 之间。 我能够使用以下方法完成完整的加载:

def readFromRedShift(spark: SparkSession, schema, tablename):
        table = str(schema) + str(".") + str(tablename)
        (url, Properties, host, port, db) = con.getConnection("REDSHIFT")
        df = spark.read.jdbc(url=url, table=table, properties=Properties)
        return df

其中getConnection是一个单独的 class 下的不同方法,它处理所有与红移相关的细节。 后来,我使用这种方法创建了一个数据框,并将结果写入 S3,效果非常好。

现在,我想加载增量数据。 enabling Job Bookmarks Glue 选项对我有帮助吗? 或者还有其他方法吗? 我遵循了这个官方文档,但对我的问题陈述没有帮助。 那么,如果我第一次运行它会加载完整的数据,如果我重新运行它是否能够加载新到达的记录?

你是对的。 它可以通过使用工作书签来实现,但同时它可能有点棘手。 请参阅此文档https://aws.amazon.com/blogs/big-data/load-data-incrementally-and-optimized-parquet-writer-with-aws-glue/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM