[英]MySQL NOT IN (array[]) vs PHP in_array(array[])?
我有一個每小時運行一次的查詢,我正在處理來自該查詢的某個數據集。 在處理此數據集時,我需要忽略一些 ID,我目前正在使用NOT IN
執行此操作,但我需要忽略的 ID 數量約為 50。
我想知道的問題是,我正在使用我正在處理的數據以某種模式創建一個文本文件,我應該直接在查詢中還是在 foreach 模式中使用這個忽略操作以獲得更好的性能?
查詢返回數據集中大約 5000-7000 個數據,包含 10M 記錄,我需要忽略結果集中大約 50 個 ID。
讓我們說;
$blacklist_arr = array(1,10,20,30,40,50,60,70,80,90,100); //around 50 element in array~
我現在用什么;
...QUERY...
resultSet.ID NOT IN (\'' . implode( "', '" , $blacklist_arr ) . '\')
我打算使用什么;
foreach ($final_dataset as $final_data) {
...
if (!in_array($final_data, $blacklist_arr )) {
//write to file
...
編輯* 查詢結構如下;
SELECT *
FROM
(
(
SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 )
WHERE
( a.someColumn > NOW( ) - INTERVAL 2 HOUR )
AND ( a.col3 < DATE_HERE )
) UNION
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
WHERE
( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL )
AND ( a.col3 < DATE_HERE )
)
) AS resultSet
WHERE
resultSet.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 )
ORDER BY
resultSet.col3 ASC,
resultSet.col2 ASC,
resultSet.col4 ASC,
resultSet.col1 DESC
如果您的 t.col_black_elem 是通過另一個查詢獲得的,您可以嘗試使用左連接檢查不匹配的值
SELECT a.col1,..., a.coln
from table1 a
LEFT JOIN (
select col_black_elem from tablex
) t on t.col_black_elem = a.colx
WHERE t.col_black_elem is null
和你的代碼
SELECT *
FROM
(
(
SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 )
WHERE
( a.someColumn > NOW( ) - INTERVAL 2 HOUR )
AND ( a.col3 < DATE_HERE )
) UNION
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
WHERE
( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL )
AND ( a.col3 < DATE_HERE )
)
) AS resultSet
LEFT JOIN (
select col_black_elem from tablex
) t on t.col_black_elem = resultSet.col1
WHERE t.col_black_elem is null
ORDER BY
resultSet.col3 ASC,
resultSet.col2 ASC,
resultSet.col4 ASC,
resultSet.col1 DESC
否則,如果您的 t.col_black_elem 不是通過其他查詢獲得的,您可以使用多個 select 聯合填充臨時表或 buld 動態表
從性能的角度來看,我建議您:
SELECT *
FROM
(
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 )
WHERE
( a.someColumn > NOW( ) - INTERVAL 2 HOUR )
AND ( a.col3 < DATE_HERE )
AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 )
) UNION
(
SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
FROM
`a`
WHERE
( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL )
AND ( a.col3 < DATE_HERE )
AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 )
)
) AS resultSet
ORDER BY
resultSet.col3 ASC,
resultSet.col2 ASC,
resultSet.col4 ASC,
resultSet.col1 DESC
各種點:
我有一個“經驗法則”:“如果估計可能的優化改進不到 10%,請繼續前進。也就是說,不要在它上面花費額外的精力。相反,尋找更好的工作。 " 根據您的數字,優化僅將結果集減少了約 1%。
有一個標准的編程規則:“KISS”。 哪個更容易編碼——NOT NOT IN
或 PHP 過濾? 一個變體:“哪種方法擊鍵次數更少?” 這來自“程序員的時間比計算機時間更有價值。
將NOT IN
移動到每個子查詢中可能會稍微加快速度。 這是因為它會(稍微)減少查詢中涉及的中間表。 (但是,這不符合 10% 和 KISS 規則。)另一方面,它可以消除最外層的 Select。 注意:這有效: (SELECT...) UNION (SELECT...) ORDER BY...
。
潛在錯誤:最里面的 Select 可能正在從排除的 col1 之一中選擇日期和時間。
UNION
默認為UNION DISTINCT
,它比UNION ALL
慢。 將此視為更大的優化。
ON ( sub.X = a.col4)
可能需要提及col2
。
DATE_HERE
是否與NOW()
有某種關系? 也許您需要TIMESTAMP
而不是DATETIME
,反之亦然?
我懷疑不需要DISTINCT
。 無論如何,它與UNION
是多余的。
考慮“黑名單”是否應該是一個表,而不是一個配置文件。 作為表,需要將NOT EXISTS(..)
或LEFT JOIN.. IS NOT NULL
添加到查詢中。 這將比您現在擁有的要慢,但可能會“更干凈”。
WHERE 1=1
是惰性編程的神器; 這不是優化; 優化器會簡單地扔掉它。
通常,更好的索引提供最大的改進。 也許以下內容會有所幫助。 注意:單獨的單列索引不太好。 此外,當添加INDEX(a,b)
時,刪除INDEX(a)
。
a (as b): INDEX(col2, col4) -- this order a: INDEX(col4, col3, someColumn) -- col4 first
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.