有沒有辦法讓SQL NOT IN查詢更快？

Question

我想獲得每天記錄到數據庫並且從未出現在日志中的唯一手機條目數。 我認為這是一個微不足道的查詢，但是當查詢在一個有大約900K條目的表上花了10分鍾時，我感到震驚。 選擇示例是獲取2015年4月9日記錄且以前從未記錄過的唯一手機的數量。 就像在特定的一天讓誰成為真正的新訪問者一樣。 SQL小提琴鏈接

SELECT COUNT(DISTINCT mobile_number)
FROM log_entries
WHERE created_at BETWEEN '2015-04-09 00:00:00'
    AND '2015-04-09 23:59:59'
    AND mobile_number NOT IN (
        SELECT mobile_number
        FROM log_entries
        WHERE created_at < '2015-04-09 00:00:00'
        )

我在created_at和mobile_number上有單獨的索引。

有沒有辦法讓它更快？ 我在這里看到了一個非常類似的問題，但這是在使用兩個表。

Answer 1

NOT IN可以被重寫為NOT EXISTS查詢，這通常更快（不幸的是Postgres優化器不夠聰明，無法檢測到這一點）。

SELECT COUNT(DISTINCT l1.mobile_number) 
FROM log_entries as l1
WHERE l1.created_at >= '2015-04-09 00:00:00' 
  AND l1.created_at <= '2015-04-09 23:59:59' 
  AND NOT EXISTS (SELECT * 
                  FROM log_entries l2
                  WHERE l2.created_at < '2015-04-09 00:00:00'
                    AND l2.mobile_number = l1.mobile_number);

(mobile_number, created_at)上的索引應該進一步提高性能。

附注： created_at <= '2015-04-09 23:59:59'不包括小數秒的行，例如2015-04-09 23:59:59.789 。 處理時間戳時，最好在“第二天”使用“低於”而不是在相關日期使用“低於或等於”。

所以最好使用： created_at < '2015-04-10 00:00:00'而不是在那一天用“小數秒”“捕獲”行。

Answer 2

我傾向於建議將NOT IN轉換為左反連接（即左連接只保留與右側不匹配的左側行）。 在這種情況下，它有點復雜，因為它是對同一個表的兩個不同范圍的自連接，所以你真的加入了兩個子查詢：

SELECT COUNT(n.mobile_number)
FROM (
  SELECT DISTINCT mobile_number
  FROM log_entries
  WHERE created_at BETWEEN '2015-04-09 00:00:00' AND '2015-04-09 23:59:59'
) n
LEFT OUTER JOIN (
  SELECT DISTINCT mobile_number
  FROM log_entries
  WHERE created_at < '2015-04-09 00:00:00'
) o ON (n.mobile_number = o.mobile_number)
WHERE o.mobile_number IS NULL;

與@a_horse_with_no_name提供的典型NOT EXISTS公式相比，我對此表現感興趣。

請注意，我還將DISTINCT檢查下推到子查詢中。

您的查詢似乎是“<時間范圍>中有多少新看到的手機號碼”。 對？

Answer 3

是不是WHERE created_at >= '2015-04-09 00:00:00' AND created_at <= '2015-04-09 23:59:59' '2015-04-09 00:00 WHERE created_at >= '2015-04-09 00:00:00' AND created_at <= '2015-04-09 23:59:59'照顧WHERE created_at <'2015-04-09 00:00 ：00' ？ 我在這里錯過了什么嗎？

Answer 4

NOT IN根本不快。 並且您的子查詢返回了許多重復記錄。 也許你應該將唯一的數字放到專用表中（因為GROUP BY也會很慢）。

Answer 5

嘗試這樣的事情：

SELECT mobile_number, min(created_at)
FROM log_entries
GROUP BY mobile_number
HAVING min(created_at) between '2015-04-09 00:00:00' and '2015-04-09 23:59:59'

假設表中還有其他列，添加覆蓋mobile_number和created_at的單個索引將略微提高性能，因為只需要掃描該索引。

Answer 6

嘗試使用WITH（如果你的sql支持它）。 這是幫助（postgres）： http ： //www.postgresql.org/docs/current/static/queries-with.html

你的查詢應該是這樣的：

WITH  b as
(SELECT distinct mobile_number
        FROM log_entries
        WHERE created_at < '2015-04-09 00:00:00') 
SELECT COUNT(DISTINCT a.mobile_number)
FROM log_entries a   
left join b using(mobile_number)
where created_at >= '2015-04-09 00:00:00'
   AND created_at <= '2015-04-09 23:59:59' and b.mobile_number is null;

有沒有辦法讓SQL NOT IN查詢更快？

問題描述

6 個解決方案

解決方案1
4 已采納 2015-04-10 07:32:50

解決方案2
1 2015-04-10 07:42:52

解決方案3
0 2015-04-10 06:57:21

解決方案4
0 2015-04-10 07:01:27

解決方案5
0 2015-04-10 07:04:43

解決方案6
0 2015-04-10 07:22:05

有沒有辦法讓SQL NOT IN查詢更快？

問題描述

6 個解決方案

解決方案1 4 已采納 2015-04-10 07:32:50

解決方案2 1 2015-04-10 07:42:52

解決方案3 0 2015-04-10 06:57:21

解決方案4 0 2015-04-10 07:01:27

解決方案5 0 2015-04-10 07:04:43

解決方案6 0 2015-04-10 07:22:05

解決方案1
4 已采納 2015-04-10 07:32:50

解決方案2
1 2015-04-10 07:42:52

解決方案3
0 2015-04-10 06:57:21

解決方案4
0 2015-04-10 07:01:27

解決方案5
0 2015-04-10 07:04:43

解決方案6
0 2015-04-10 07:22:05