MySQL NOT IN (array[]) vs PHP in_array(array[])？

Question

我有一個每小時運行一次的查詢，我正在處理來自該查詢的某個數據集。 在處理此數據集時，我需要忽略一些 ID，我目前正在使用NOT IN執行此操作，但我需要忽略的 ID 數量約為 50。

我想知道的問題是，我正在使用我正在處理的數據以某種模式創建一個文本文件，我應該直接在查詢中還是在 foreach 模式中使用這個忽略操作以獲得更好的性能？

查詢返回數據集中大約 5000-7000 個數據，包含 10M 記錄，我需要忽略結果集中大約 50 個 ID。

讓我們說；

$blacklist_arr = array(1,10,20,30,40,50,60,70,80,90,100); //around 50 element in array~

我現在用什么；

...QUERY...
resultSet.ID NOT IN (\'' . implode( "', '" , $blacklist_arr ) . '\')

我打算使用什么；

foreach ($final_dataset as $final_data) {
    ...
    if (!in_array($final_data, $blacklist_arr )) {
    //write to file
    ...

編輯* 查詢結構如下；

SELECT * 
FROM
    (
        (
        SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a`
            INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 ) 
        WHERE
            ( a.someColumn > NOW( ) - INTERVAL 2 HOUR ) 
            AND ( a.col3 < DATE_HERE ) 
        ) UNION
        (
        SELECT  a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a` 
        WHERE
            ( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL ) 
            AND ( a.col3 < DATE_HERE ) 
        ) 
    ) AS resultSet 
WHERE
    resultSet.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 ) 
ORDER BY
    resultSet.col3 ASC,
    resultSet.col2 ASC,
    resultSet.col4 ASC,
    resultSet.col1 DESC

Answer 1

如果您的 t.col_black_elem 是通過另一個查詢獲得的，您可以嘗試使用左連接檢查不匹配的值

   SELECT a.col1,..., a.coln
   from table1 a 
   LEFT JOIN (
        select col_black_elem from tablex 
   ) t on t.col_black_elem = a.colx 
   WHERE  t.col_black_elem  is null

和你的代碼

SELECT * 
FROM
    (
        (
        SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a`
            INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 ) 
        WHERE
            ( a.someColumn > NOW( ) - INTERVAL 2 HOUR ) 
            AND ( a.col3 < DATE_HERE ) 
        ) UNION
        (
        SELECT  a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a` 
        WHERE
            ( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL ) 
            AND ( a.col3 < DATE_HERE ) 
        ) 
    ) AS resultSet 
LEFT JOIN (
        select col_black_elem from tablex 
   ) t on t.col_black_elem =  resultSet.col1
WHERE  t.col_black_elem  is null
ORDER BY
    resultSet.col3 ASC,
    resultSet.col2 ASC,
    resultSet.col4 ASC,
    resultSet.col1 DESC

否則，如果您的 t.col_black_elem 不是通過其他查詢獲得的，您可以使用多個 select 聯合填充臨時表或 buld 動態表

Answer 2

從性能的角度來看，我建議您：

在第一個子查詢中刪除 DISTINCT。 一種排序優於兩次排序。
過濾子查詢中的行，而不是組合行集中的行，這將減少按 UNION 排序的行數。

SELECT * 
FROM
    (
        (
        SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a`
            INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 ) 
        WHERE
            ( a.someColumn > NOW( ) - INTERVAL 2 HOUR ) 
            AND ( a.col3 < DATE_HERE ) 
            AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 ) 

        ) UNION
        (
        SELECT  a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a` 
        WHERE
            ( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL ) 
            AND ( a.col3 < DATE_HERE ) 
            AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 ) 

        ) 
    ) AS resultSet 
ORDER BY
    resultSet.col3 ASC,
    resultSet.col2 ASC,
    resultSet.col4 ASC,
    resultSet.col1 DESC

Answer 3

各種點：

我有一個“經驗法則”：“如果估計可能的優化改進不到 10%，請繼續前進。也就是說，不要在它上面花費額外的精力。相反，尋找更好的工作。 " 根據您的數字，優化僅將結果集減少了約 1%。
有一個標准的編程規則：“KISS”。 哪個更容易編碼——NOT NOT IN或 PHP 過濾？ 一個變體：“哪種方法擊鍵次數更少？” 這來自“程序員的時間比計算機時間更有價值。
將NOT IN移動到每個子查詢中可能會稍微加快速度。 這是因為它會（稍微）減少查詢中涉及的中間表。 （但是，這不符合 10% 和 KISS 規則。）另一方面，它可以消除最外層的 Select。 注意：這有效： (SELECT...) UNION (SELECT...) ORDER BY... 。
潛在錯誤：最里面的 Select 可能正在從排除的 col1 之一中選擇日期和時間。
UNION默認為UNION DISTINCT ，它比UNION ALL慢。 將此視為更大的優化。
ON ( sub.X = a.col4)可能需要提及col2 。
DATE_HERE是否與NOW()有某種關系？ 也許您需要TIMESTAMP而不是DATETIME ，反之亦然？
我懷疑不需要DISTINCT 。 無論如何，它與UNION是多余的。
考慮“黑名單”是否應該是一個表，而不是一個配置文件。 作為表，需要將NOT EXISTS(..)或LEFT JOIN.. IS NOT NULL添加到查詢中。 這將比您現在擁有的要慢，但可能會“更干凈”。
WHERE 1=1是惰性編程的神器； 這不是優化； 優化器會簡單地扔掉它。
通常，更好的索引提供最大的改進。 也許以下內容會有所幫助。 注意：單獨的單列索引不太好。 此外，當添加INDEX(a,b)時，刪除INDEX(a) 。
```
 a (as b): INDEX(col2, col4) -- this order a: INDEX(col4, col3, someColumn) -- col4 first
```

MySQL NOT IN (array[]) vs PHP in_array(array[])？

問題描述

3 個解決方案

解決方案1
0 2022-01-01 08:35:53

解決方案2
0 2022-01-01 11:09:40

解決方案3
0 2022-01-01 16:23:21

MySQL NOT IN (array[]) vs PHP in_array(array[])？

問題描述

3 個解決方案

解決方案1 0 2022-01-01 08:35:53

解決方案2 0 2022-01-01 11:09:40

解決方案3 0 2022-01-01 16:23:21

解決方案1
0 2022-01-01 08:35:53

解決方案2
0 2022-01-01 11:09:40

解決方案3
0 2022-01-01 16:23:21