簡體   English   中英

MySQL NOT IN (array[]) vs PHP in_array(array[])?

[英]MySQL NOT IN (array[]) vs PHP in_array(array[])?

我有一個每小時運行一次的查詢,我正在處理來自該查詢的某個數據集。 在處理此數據集時,我需要忽略一些 ID,我目前正在使用NOT IN執行此操作,但我需要忽略的 ID 數量約為 50。

我想知道的問題是,我正在使用我正在處理的數據以某種模式創建一個文本文件,我應該直接在查詢中還是在 foreach 模式中使用這個忽略操作以獲得更好的性能?

查詢返回數據集中大約 5000-7000 個數據,包含 10M 記錄,我需要忽略結果集中大約 50 個 ID。

讓我們說;

$blacklist_arr = array(1,10,20,30,40,50,60,70,80,90,100); //around 50 element in array~

我現在用什么;

...QUERY...
resultSet.ID NOT IN (\'' . implode( "', '" , $blacklist_arr ) . '\')

我打算使用什么;

foreach ($final_dataset as $final_data) {
    ...
    if (!in_array($final_data, $blacklist_arr )) {
    //write to file
    ...

編輯* 查詢結構如下;

SELECT * 
FROM
    (
        (
        SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a`
            INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 ) 
        WHERE
            ( a.someColumn > NOW( ) - INTERVAL 2 HOUR ) 
            AND ( a.col3 < DATE_HERE ) 
        ) UNION
        (
        SELECT  a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a` 
        WHERE
            ( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL ) 
            AND ( a.col3 < DATE_HERE ) 
        ) 
    ) AS resultSet 
WHERE
    resultSet.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 ) 
ORDER BY
    resultSet.col3 ASC,
    resultSet.col2 ASC,
    resultSet.col4 ASC,
    resultSet.col1 DESC

如果您的 t.col_black_elem 是通過另一個查詢獲得的,您可以嘗試使用左連接檢查不匹配的值

   SELECT a.col1,..., a.coln
   from table1 a 
   LEFT JOIN (
        select col_black_elem from tablex 
   ) t on t.col_black_elem = a.colx 
   WHERE  t.col_black_elem  is null

和你的代碼

SELECT * 
FROM
    (
        (
        SELECT DISTINCT a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a`
            INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 ) 
        WHERE
            ( a.someColumn > NOW( ) - INTERVAL 2 HOUR ) 
            AND ( a.col3 < DATE_HERE ) 
        ) UNION
        (
        SELECT  a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a` 
        WHERE
            ( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL ) 
            AND ( a.col3 < DATE_HERE ) 
        ) 
    ) AS resultSet 
LEFT JOIN (
        select col_black_elem from tablex 
   ) t on t.col_black_elem =  resultSet.col1
WHERE  t.col_black_elem  is null
ORDER BY
    resultSet.col3 ASC,
    resultSet.col2 ASC,
    resultSet.col4 ASC,
    resultSet.col1 DESC

否則,如果您的 t.col_black_elem 不是通過其他查詢獲得的,您可以使用多個 select 聯合填充臨時表或 buld 動態表

從性能的角度來看,我建議您:

  1. 在第一個子查詢中刪除 DISTINCT。 一種排序優於兩次排序。
  2. 過濾子查詢中的行,而不是組合行集中的行,這將減少按 UNION 排序的行數。
SELECT * 
FROM
    (
        (
        SELECT a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a`
            INNER JOIN ( SELECT MAX( b.col4 ) AS X, b.col2 FROM `a` AS `b` GROUP BY b.col2 ORDER BY NULL ) sub ON ( sub.X = a.col4 ) 
        WHERE
            ( a.someColumn > NOW( ) - INTERVAL 2 HOUR ) 
            AND ( a.col3 < DATE_HERE ) 
            AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 ) 

        ) UNION
        (
        SELECT  a.col1, a.col2, a.col3, a.col4,..., a.coln
        FROM
            `a` 
        WHERE
            ( a.someColumn >= DATE_SUB( NOW( ), INTERVAL 3 MONTH ) AND a.col4 IS NULL ) 
            AND ( a.col3 < DATE_HERE ) 
            AND a.col1 NOT IN ( 1,10,20,30,40,50,60,70,80,90,100 ) 

        ) 
    ) AS resultSet 
ORDER BY
    resultSet.col3 ASC,
    resultSet.col2 ASC,
    resultSet.col4 ASC,
    resultSet.col1 DESC

各種點:

  • 我有一個“經驗法則”:“如果估計可能的優化改進不到 10%,請繼續前進。也就是說,不要在它上面花費額外的精力。相反,尋找更好的工作。 " 根據您的數字,優化僅將結果集減少了約 1%。

  • 有一個標准的編程規則:“KISS”。 哪個更容易編碼——NOT NOT IN或 PHP 過濾? 一個變體:“哪種方法擊鍵次數更少?” 這來自“程序員的時間比計算機時間更有價值。

  • NOT IN移動到每個子查詢中可能會稍微加快速度。 這是因為它會(稍微)減少查詢中涉及的中間表。 (但是,這不符合 10% 和 KISS 規則。)另一方面,它可以消除最外層的 Select。 注意:這有效: (SELECT...) UNION (SELECT...) ORDER BY...

  • 潛在錯誤:最里面的 Select 可能正在從排除的 col1 之一中選擇日期和時間。

  • UNION默認為UNION DISTINCT ,它比UNION ALL慢。 將此視為更大的優化。

  • ON ( sub.X = a.col4)可能需要提及col2

  • DATE_HERE是否與NOW()有某種關系? 也許您需要TIMESTAMP而不是DATETIME ,反之亦然?

  • 我懷疑不需要DISTINCT 無論如何,它與UNION是多余的。

  • 考慮“黑名單”是否應該是一個表,而不是一個配置文件。 作為表,需要將NOT EXISTS(..)LEFT JOIN.. IS NOT NULL添加到查詢中。 這將比您現在擁有的要慢,但可能會“更干凈”。

  • WHERE 1=1是惰性編程的神器; 不是優化; 優化器會簡單地扔掉它。

  • 通常,更好的索引提供最大的改進。 也許以下內容會有所幫助。 注意:單獨的單列索引不太好。 此外,當添加INDEX(a,b)時,刪除INDEX(a)

     a (as b): INDEX(col2, col4) -- this order a: INDEX(col4, col3, someColumn) -- col4 first

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM