如何优化这个SQL查询大表的响应时间？

Question

我有一个中型表（大约 350000 个条目并且还在增长）。 我需要从表中获取 dev_id 和 var_id 对的最后一个条目。 我实际上可以获取它们，但是查询大约需要 20 秒，而且这对于我的目的来说是不可接受的。

我正在使用 MariaDB 在 MySQL 服务器上尝试下一个查询：

select d.dev_id, d.var_id, d.ts, d.value from data_table d 
                where d.ts > NOW() - INTERVAL 2 DAY
                and ts = (SELECT MAX(ts) FROM data_table
                                  WHERE dev_id = d.dev_id
                                    AND var_id = d.var_id)
                ORDER BY  d.dev_id

该表具有如下结构：

id  | dev_id | frame_number | var_id | value | ts
1   |    2   |      1       |    2   | 65.5  | 2019-10-10 19:56:05
2   |    3   |      5       |    4   | 23    | 2019-10-10 20:56:06
3   |    2   |      1       |    2   | 65.5  | 2019-10-10 20:59:30
.   |    .   |      .       |    .   |   .   |    .
.   |    .   |      .       |    .   |   .   |    .
.   |    .   |      .       |    .   |   .   |    .
300k|    5   |      100     |    7   | -15.23| 2020-10-10 20:59:30

我需要对类似查询获得更快的响应，但我的经验不足以检测到查询中的瓶颈

编辑 1：我不能省略 ORDER BY 但改进的省略是低的（20 秒对 18.5 秒）

编辑 2：data_table 模式

编辑 3 以及如何修复它：添加（dev_id、var_id 和 ts）作为索引（基于多列的索引）。 查询现在只需要 0.6 秒

Answer 1

对于此查询：

select d.dev_id, d.var_id, d.ts, d.value
from data_table d 
where d.ts > NOW() - INTERVAL 2 DAY and
      ts = (SELECT MAX(d2.ts)
            FROM data_table d2
            WHERE d2.dev_id = d.dev_id AND d2.var_id = d.var_id
           )
ORDER BY d.dev_id;

我会推荐两个索引：

data_table(ts, dev_id, var_id, value)
data_table(dev_id, var_id, ts)

第一个是外部查询的覆盖索引。 第二个是内部查询的覆盖索引。

这可能会有所帮助——假设您有很多重复项。 如果不是，则外部order by可能是性能问题的原因。 那会更难修复。

Answer 2

在这些情况下，我倾向于归咎于相关子查询，尽管已经建议的索引在这两种情况下都会有所帮助：

SELECT d.dev_id, d.var_id, d.ts, d.value 
FROM (
   SELECT dev_id, var_id, MAX(ts) AS ts
   FROM data_table
   WHERE ts >  NOW() - INTERVAL 2 DAY
   GROUP BY dev_id, var_id
) AS lastTS
INNER JOIN data_table AS d 
    ON lastTS.dev_id = d.dev_id AND lastTS.var_id = d.var_id AND lastTS.ts = d.ts
    -- or, alternatively, USING (dev_id, var_id, ts)
ORDER BY d.dev_id
;

您当前的相关子查询正在为过去两天的每个条目分别执行（“在后台”）' (dev_id, var_id) ； 对于具有相同（dev_id，var_id）的多个最近条目，甚至可能重复。 我建议的版本计算过去 2 天内发生的每个(var_id, dev_id)的最大值一次，然后将它们连接到表中以查找完整记录。

如果外部查询的中间结果很少，那么在处理大量数据时，更集中的相关查询可能比非相关查询更快； 但是如果有大量中间结果，和/或相关子查询不会显着降低非相关版本的成本，我发现非相关版本效果更好。

如何优化这个SQL查询大表的响应时间？

问题描述

2 个解决方案

解决方案1
4 已采纳 2019-10-10 18:04:14

解决方案2
1 2019-10-10 18:28:52

如何优化这个SQL查询大表的响应时间？

问题描述

2 个解决方案

解决方案1 4 已采纳 2019-10-10 18:04:14

解决方案2 1 2019-10-10 18:28:52

解决方案1
4 已采纳 2019-10-10 18:04:14

解决方案2
1 2019-10-10 18:28:52