將流數據插入 Amazon Redshift 集群

Question

我正在嘗試將 sparkstream 數據直接插入 Amazon Redshift 集群，但無法找到正確的方法。

下面是我得到的代碼，但它首先插入到 S3，然后復制到 Redshift:。

#REDSHIFT_JDBC_URL = "jdbc:redshift://%s:5439/%s" % (REDSHIFT_SERVER, DATABASE)

df.write \
    .format("com.databricks.spark.redshift") \
    .option("url", REDSHIFT_JDBC_URL) \
    .option("dbtable", TABLE_NAME) \
    .option("tempdir", "s3n://%s:%s@%s" % (ACCESS_KEY, SECRET, S3_BUCKET_PATH)) \
    .mode("overwrite") \
    .save()

它會影響流式傳輸或插入性能嗎？

或者有其他方法可以做到嗎？

Answer 1

您正在使用的Spark的Redshift數據源通過將數據寫入S3上的臨時文件來將數據寫入Redshift，然后使用Redshift COPY命令將數據加載到Redshift中。 COPY命令要求數據在S3上的文件中，這是將數據加載到Redshift的最有效方式，因此您的代碼當前正在執行的操作似乎是正確的。

另請參閱： https : //databricks.com/blog/2015/10/19/introducing-redshift-data-source-for-spark.html

Answer 2

AWS Redshift 現在支持通過 Kinesis Data Streams 本地流式插入。 無需中間 S3 分期。 功能現已公開預覽

https://aws.amazon.com/about-aws/whats-new/2022/02/amazon-redshift-public-preview-streaming-ingestion-kinesis-data-streams/

將流數據插入 Amazon Redshift 集群

問題描述

2 個解決方案

解決方案1
0 已采納 2018-01-31 19:48:48

解決方案2
0 2022-02-12 11:37:15

將流數據插入 Amazon Redshift 集群

問題描述

2 個解決方案

解決方案1 0 已采納 2018-01-31 19:48:48

解決方案2 0 2022-02-12 11:37:15

解決方案1
0 已采納 2018-01-31 19:48:48

解決方案2
0 2022-02-12 11:37:15