簡體   English   中英

用於將數據從 MySql RDS 復制到 Redshift 的復制管道

[英]Replication pipeline to replicate data from MySql RDS to Redshift

我的問題是創建一個復制管道,將表和數據從 MySql RDS 復制到 Redshift,我不能使用任何托管服務。 此外,RDS 中的任何新更新也應復制到紅移表中。

在查看了我的許多解決方案之后,我了解了以下步驟:

  1. 從 MySql RDS 創建平面文件/CSV 並將它們保存在 S3 中。
  2. 使用 Redshift 的 COPY 命令復制 staging 表中的數據,最后保存到主表中。
  3. 現在,對於更新部分,每次我將 CSV 推送到 S3 並重復第 2 步。

所以,我只是想確認上述方法是否可行? 因為,每次更新發生時,舊數據是否會被完全刪除並被新數據替換,或者是否可以只更新必要的記錄。 如果是,那么如何?

任何幫助將不勝感激。 提前致謝。

是的,上面的策略不僅很好,而且good 我在生產system中使用它並且效果很好,盡管您必須小心並制定此策略以確保它effectivelyefficiently地解決您的用例。

這里有幾點,我所說的有效和高效的意思。

  1. 確保您有最有效的方法來識別要推送到Redshift的記錄,這意味着使用包括CPUMemory在內的優化查詢來識別潛在記錄。
  2. 確保使用優化的方式將識別到的發送到redshift ,包括數據大小優化,使其使用最小的storagenetwork bandwidth 例如壓縮和gzip CSV 文件,使其在S3存儲中占用最小大小並節省network帶寬。
  3. 嘗試以並行執行的方式運行copy redshift查詢。

希望這會有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM