T-SQL：从列计算第N个百分位值

Question

我有一列数据，其中一些是NULL值，我希望从中提取单个第90百分位值：

ColA
-----
NULL
100
200
300
NULL
400
500
600
700
800
900
1000

对于上述，我正在寻找一种技术，当搜索第90百分位数时返回值900，将第80百分位数返回800，等等。类似的函数是AVG（ColA），其返回550以获得上述数据，或MIN（返回100等的ColA）

有什么建议么？

Answer 1

如果你想准确得到第90个百分位值，不包括NULL，我建议你直接进行计算。 以下版本计算行数和行数，并选择适当的值：

select max(case when rownum*1.0/numrows <= 0.9 then colA end) as percentile_90th
from (select colA,
             row_number() over (order by colA) as rownum,
             count(*) over (partition by NULL) as numrows
      from t
      where colA is not null
     ) t

我将条件放在SELECT子句而不是WHERE子句中，因此您可以轻松获得第50个百分位数，第17个或任何您想要的值。

Answer 2

WITH
  percentiles AS
(
  SELECT
    NTILE(100) OVER (ORDER BY ColA) AS percentile,
    *
  FROM
    data
)
SELECT
  *
FROM
  percentiles
WHERE
  percentile = 90

注意：如果数据少于100个观察值，则并非所有百分位数都具有值。 同样，如果您有超过100个观察值，则某些百分位数将包含更多值。

Answer 3

从SQL Server 2012开始，现在有PERCENTILE_DISC和PERCENTILE_CONT反向分布函数。 这些（到目前为止）仅作为窗口函数使用，而不是作为聚合函数使用，因此您必须删除多余的结果，因为缺少分组，例如使用DISTINCT或TOP 1 ：

WITH t AS (
  SELECT *
  FROM (
    VALUES(NULL),(100),(200),(300),
      (NULL),(400),(500),(600),(700),
      (800),(900),(1000)
  ) t(ColA)
)
SELECT DISTINCT percentile_disc(0.9) WITHIN GROUP (ORDER BY ColA) OVER()
FROM t
;

我在这里更详细地写了关于百分位数的博客。

T-SQL：从列计算第N个百分位值

问题描述

3 个解决方案

解决方案1
9 已采纳 2012-08-10 17:31:05

解决方案2
4 2012-08-10 17:12:14

解决方案3
0 2019-01-25 15:25:30

T-SQL：从列计算第N个百分位值

问题描述

3 个解决方案

解决方案1 9 已采纳 2012-08-10 17:31:05

解决方案2 4 2012-08-10 17:12:14

解决方案3 0 2019-01-25 15:25:30

解决方案1
9 已采纳 2012-08-10 17:31:05

解决方案2
4 2012-08-10 17:12:14

解决方案3
0 2019-01-25 15:25:30