给定一个数字序列如何识别缺失的数字

Question

我想在数字序列中获取所有缺失的数字。
只是想知道是否有比下面更好的方法？

SELECT x
  FROM 
  (
    SELECT x,
           LAG(x,1) OVER ( ORDER BY x ) prev_x
      FROM 
       ( SELECT * FROM
        ( SELECT 1 AS x ),
        ( SELECT 2 AS x ),
        ( SELECT 3 AS x ),
        ( SELECT 4 AS x ),
        ( SELECT 5 AS x ),
        ( SELECT 6 AS x ),
        ( SELECT 8 AS x ),
        ( SELECT 10 AS x ),
        ( SELECT 11 AS x )
       )
  ) 
 WHERE x-prev_x > 1;

Answer 1

让我对你诚实！
任何其他可行的解决方案都会比提出问题更好 - 原因很简单 - 这是错误的！ 它根本不返回丢失的数字！ 它而是显示下一个间隙后的数字。 就是这样（希望你会明白我睁开了你的眼睛）

现在，关于更好的解决方案 - 有很多选择供您追求。
注意：以下选项仅适用于 BigQuery！

选项1

BigQuery 标准 SQL - 请参阅如何启用标准 SQL

WITH YourTable AS (
  SELECT 1 AS x UNION ALL
  SELECT 2 AS x UNION ALL
  SELECT 3 AS x UNION ALL
  SELECT 6 AS x UNION ALL
  SELECT 8 AS x UNION ALL
  SELECT 10 AS x UNION ALL
  SELECT 11 AS x
),
nums AS (
  SELECT num 
  FROM UNNEST(GENERATE_ARRAY((SELECT MIN(x) FROM YourTable), (SELECT MAX(x) FROM YourTable))) AS num
)
SELECT num FROM nums
LEFT JOIN YourTable ON num = x
WHERE x IS NULL
ORDER BY num

选项 2

BigQuery Legacy SQL您可以在下面尝试（这里您需要在 nums 表的选择表达式中设置开始/最小值和结束/最大值

SELECT num FROM (
  SELECT num FROM (
    SELECT ROW_NUMBER() OVER() AS num, * 
    FROM (FLATTEN((SELECT SPLIT(RPAD('', 11, '.'),'') AS h FROM (SELECT NULL)), h))
  ) WHERE num BETWEEN 1 AND 11
) AS nums
LEFT JOIN (
  SELECT x FROM
    (SELECT 1 AS x),
    (SELECT 2 AS x),
    (SELECT 3 AS x),
    (SELECT 6 AS x),
    (SELECT 8 AS x),
    (SELECT 10 AS x),
    (SELECT 11 AS x)
) AS YourTable
ON num = x
WHERE x IS NULL

选项 3

BigQuery Legacy SQL - 如果您不想依赖 min 和 max 并且需要设置这些值 - 您可以使用以下解决方案 - 它只需要设置足够高的 max 以适应您的预期增长（例如我放了 1000）

SELECT num FROM (
  SELECT num FROM (
    SELECT ROW_NUMBER() OVER() AS num, * 
    FROM (FLATTEN((SELECT SPLIT(RPAD('', 1000, '.'),'') AS h FROM (SELECT NULL)), h))
  ) WHERE num BETWEEN 1 AND 1000
) AS nums
LEFT JOIN YourTable
ON num = x
WHERE x IS NULL
AND num BETWEEN (SELECT MIN(x) FROM YourTable) AND (SELECT MAX(x) FROM YourTable)

选项 4（出于某种原因 - 到目前为止我最喜欢的）

BigQuery 标准 SQL - 没有显式连接

WITH YourTable AS (
  SELECT 1 AS x UNION ALL
  SELECT 2 AS x UNION ALL
  SELECT 3 AS x UNION ALL
  SELECT 6 AS x UNION ALL
  SELECT 8 AS x UNION ALL
  SELECT 10 AS x UNION ALL
  SELECT 11 AS x
)
SELECT num
FROM (SELECT x, LEAD(x) OVER(ORDER BY x) AS next_x FROM YourTable),  
     UNNEST(GENERATE_ARRAY(x + 1,next_x - 1)) AS num
WHERE next_x - x > 1
ORDER BY x

Answer 2

您的查询可以写得更简洁，如下所示：

SELECT x
FROM (
    SELECT x,
           lag(x, 1) OVER ( ORDER BY x ) prev_x
    FROM ( VALUES (1), (2), (3), (4), (5), (6), (8), (10), (11) ) v(x)
) sub
WHERE x-prev_x > 1;

这将返回缺失值 ( 8, 10 ) 之后的下一个最高值，而不是缺失值本身 ( 7, 9 )。 但是，当然，您没有方便的值。

如果您知道序列中值的范围，则可以使用以下命令：

SELECT s.x
FROM generate_series(<<min>>, <<max>>) s(x)
LEFT JOIN my_table t ON s.x = t.x
WHERE t.x IS NULL;

这将返回实际的缺失值。

如果不知道取值范围，则需要添加子查询：

SELECT s.x
FROM ( SELECT min(x), max(x) FROM my_table ) r
JOIN generate_series(r.min, r.max) s(x) ON true
LEFT JOIN my_table t ON s.x = t.x
WHERE t.x IS NULL;

或者，而不是LEFT JOIN ：

SELECT x
FROM ( SELECT min(x), max(x) FROM my_table ) r,
     generate_series(r.min, r.max) s(x)
WHERE NOT EXISTS (SELECT 1 FROM my_table t WHERE t.x = s.x);

Answer 3

Postgres 中最短的解决方案是使用标准 SQL EXCEPT ：

WITH tbl(x) AS (SELECT unnest ('{1,2,3,4,5,6,8,10,11}'::int[]))
-- the CTE provides a temp table - might be an actual table instead
SELECT generate_series(min(x), max(x)) FROM tbl
EXCEPT ALL
TABLE  tbl;

集合返回函数unnest()是 Postgres 特定的，并且是将您的一组数字作为表格提供的最短语法。

也适用于数据中的重复值或 NULL 值。

TABLE tbl是（标准 SQL！） SELECT * FROM tbl简短语法：

在 psql 中是否有 SELECT * FROM 的快捷方式？

相关（有更多解释）：

给定一个数字序列如何识别缺失的数字

问题描述

3 个解决方案

解决方案1
2 2016-09-11 04:37:04

解决方案2
1 2016-09-11 04:05:29

解决方案3
1 已采纳 2016-09-11 14:48:21

给定一个数字序列如何识别缺失的数字

问题描述

3 个解决方案

解决方案1 2 2016-09-11 04:37:04

解决方案2 1 2016-09-11 04:05:29

解决方案3 1 已采纳 2016-09-11 14:48:21

解决方案1
2 2016-09-11 04:37:04

解决方案2
1 2016-09-11 04:05:29

解决方案3
1 已采纳 2016-09-11 14:48:21