簡體 English 中英

使用 SQL 刪除 AWS Redshift 中的重復項

[英]Removing duplicates in AWS Redshift using SQL

原文 2022-12-15 15:31:09 2 2 amazon-web-services/ duplicates/ amazon-redshift

摘要：我有一張看起來像這樣的桌子

實體編號	實體名稱
01	實體1
02	實體2
01	實體1
03	實體3

問題我正在嘗試使用 SQL proc 刪除重復項，但很難找到解決方案。 在這種情況下，有沒有辦法只使用 SQL 刪除重復項？ 理想情況下，我想創建一個過程，我可以在需要刪除重復項時調用它。

我嘗試使用 CTE 和 row_number() 但努力讓它工作......

2 個解決方案

如果我正確地收集了你的數據，一個簡單的不同選擇應該在這里工作：

SELECT DISTINCT EntityId, EntityName
FROM yourTable;

您在 row_number() 的正確軌道上，但看起來您正在嘗試刪除除了一個重復行之外的所有行。 這是不可能的，因為無法區分一個副本和另一個副本。 您將需要通過幾個步驟來完成此操作。

將重復行的單個副本保存到臨時表中。 在該值等於 2 的情況下使用 row_number() 是一種好方法。
從原始表中刪除所有匹配的行。
將臨時表中的值插入回原始表中。

您可以在事務塊中執行此操作，這樣數據庫的其他用戶就不會看到缺少行的表。

使用 AWS Glue 將 AWS Redshift 轉換為 S3 Parquet 文件

[英]AWS Redshift to S3 Parquet Files Using AWS Glue

Python 使用 psycopg2 將 DateFrame 寫入 AWS redshift

[英]Python write DateFrame to AWS redshift using psycopg2

AWS Redshift 中的交錯排序鍵

[英]Interleaved sort keys in AWS Redshift

AWS 如何對 Redshift Spectrum 集群收費？

[英]How does AWS charge the Redshift Spectrum cluster?

獲取過去20個星期三的數據：aws redshift

[英]Getting data of past 20 Wednesday: aws redshift

AWS Redshift 與 Snowflake 用例

[英]AWS Redshift vs Snowflake use cases

如何取消透視大型 AWS Redshift 表

[英]how to unpivot large AWS Redshift table

redshift SQL - 具有等寬分箱的直方圖

[英]redshift SQL - Histogram With Equal Width Bins

在 SQL (Redshift) 中創建 range(x) 的 CTE？

[英]Creating CTE of range(x) in SQL (Redshift)?

如何對從 AWS Kinesis Firehose 到 Redshift 的記錄進行重復數據刪除？

[英]How to do de-duplication on records from AWS Kinesis Firehose to Redshift?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 AWS Glue 將 AWS Redshift 轉換為 S3 Parquet 文件 Python 使用 psycopg2 將 DateFrame 寫入 AWS redshift AWS Redshift 中的交錯排序鍵 AWS 如何對 Redshift Spectrum 集群收費？獲取過去20個星期三的數據：aws redshift AWS Redshift 與 Snowflake 用例如何取消透視大型 AWS Redshift 表 redshift SQL - 具有等寬分箱的直方圖在 SQL (Redshift) 中創建 range(x) 的 CTE？如何對從 AWS Kinesis Firehose 到 Redshift 的記錄進行重復數據刪除？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM