postgreSQL 查询似乎在无限循环中运行

Question

按照我之前的问题，我现在试图从我的数据库中删除重复项。 我首先运行一个子查询来识别几乎相同的记录（唯一的区别是索引列“id”）。 我的表大约有 900 万条记录，下面的代码必须在大约 1 小时 30 分后中断

DELETE FROM public."OptionsData" 
WHERE id NOT IN
(
    SELECT id FROM (
        SELECT DISTINCT ON (asofdate, contract, strike, expiry, type, last, bid, ask, volume, iv, moneyness, underlying, underlyingprice) * FROM public."OptionsData"
    ) AS TempTable
);

从子查询生成结果大约需要 1 分钟，所以也许运行完整查询可能需要很长时间 (?) 或者我的代码中有什么问题吗？

Answer 1

NOT IN 与 DISTINCT 结合通常很慢。

使用 EXISTS 删除重复项通常更快：

DELETE FROM public."OptionsData"  d1
WHERE EXISTS (select *
              from public."OptionsData" d2
              where d1.id > d2.id
                and (d1.asofdate, d1.contract, d1.strike, d1.expiry, d1.type, d1.last, d1.bid, d1.ask, d1.volume, d1.iv, d1.moneyness, d1.underlying, d1.underlyingprice) 
                    = (d2.asofdate, d2.contract, d2.strike, d2.expiry, d2.type, d2.last, d2.bid, d2.ask, d2.volume, d2.iv, d2.moneyness, d2.underlying, d2.underlyingprice)
              )

这将保留id具有最小值的行。 如果您想保留那些具有最高id使用where d1.id < d2.id 。

postgreSQL 查询似乎在无限循环中运行

问题描述

1 个解决方案

解决方案1
3 已采纳 2020-08-24 13:20:18

postgreSQL 查询似乎在无限循环中运行

问题描述

1 个解决方案

解决方案1 3 已采纳 2020-08-24 13:20:18

解决方案1
3 已采纳 2020-08-24 13:20:18