优化大数据的“具有计数（不同）”查询

Question

I have below query that I need to run on a table with 100million records but it's extremellyyy slow (been running for 5 hours so far) I am not sure how to optimize it , would be grateful for any help The table has an index on DID and week_no, and contains several other columns not indexed, and a primary key (id) indexed 我在下面的查询中需要在具有1亿条记录的表上运行，但是它运行得非常慢（到目前为止已运行5个小时），我不确定如何对其进行优化，感谢您的帮助该表在DID上有索引和week_no，并包含其他几个未索引的列，以及一个已索引的主键（id）

 DELETE FROM test WHERE "DID" IN (SELECT "DID" FROM test GROUP BY "DID" having count(distinct week_no) < 4 );

thanks! 谢谢！

Answer 1

This would be most efficiently written using a DELETE with JOIN (or USING for PostgreSQL) to avoid having to compute the counts for each row: 这将使用最有效地写入DELETE与JOIN （或USING PostgreSQL的），以避免必须的每一行计算的计数：

For PostgreSQL: 对于PostgreSQL：

DELETE
FROM test t1
USING (SELECT did, COUNT(DISTINCT week_no) AS num_weeks
       FROM test
       GROUP BY did) t2
WHERE t2.did = t1.did AND num_weeks < 4

Demo on dbfiddle dbfiddle上的演示

In MySQL: 在MySQL中：

DELETE t1
FROM test t1
JOIN (SELECT did, COUNT(DISTINCT week_no) AS num_weeks
      FROM test
      GROUP BY did) t2 ON t2.did = t1.did
WHERE num_weeks < 4

Demo on dbfiddle dbfiddle上的演示

优化大数据的“具有计数（不同）”查询

问题描述

1 个解决方案

解决方案1
0 2019-09-04 01:30:55

优化大数据的“具有计数（不同）”查询

问题描述

1 个解决方案

解决方案1 0 2019-09-04 01:30:55

解决方案1
0 2019-09-04 01:30:55