使用AWS Redshift中的Group By計算中位數

Question

我已經看過其他關於在Redshift中使用median（）窗口函數的帖子，但是你如何將它與最后有一個group by的查詢一起使用？

例如，假設表課程：

Course | Subject | Num_Students
-------------------------------
   1   |  Math   |      4
   2   |  Math   |      6
   3   |  Math   |      10
   4   | Science |      2
   5   | Science |      10
   6   | Science |      12

我想得到每門課程的學生中位數。 我如何編寫一個給出以下結果的查詢：

  Subject  | Median
-----------------------
 Math      |     6
 Science   |     10

我試過了：

SELECT
subject, median(num_students) over ()
FROM
course
GROUP BY 1
;

但是它列出了主題的每一次出現以及相同主題的相同中位數數字（這是假數據，因此它返回的實際值不是6，但只顯示所有主題的相同）：

  Subject  | Median
-----------------------
 Math      |     6
 Math      |     6
 Math      |     6
 Science   |     6
 Science   |     6
 Science   |     6

Answer 1

以下內容將為您提供您正在尋找的結果：

SELECT distinct
subject, median(num_students) over(partition by Subject) 
FROM
course
order by Subject;

Answer 2

您只需要刪除它的“over（）”部分。

SELECT subject, median(num_students) FROM course GROUP BY 1;

Answer 3

您尚未在窗口中定義分區。 而不是OVER()你需要OVER(PARTITION BY subject) 。

Answer 4

假設您要計算其他聚合，按主題，如avg（），您需要使用子查詢：

WITH subject_numstudents_medianstudents AS (
    SELECT
        subject
        , num_students
        , median(num_students) over (partition BY subject) AS median_students
    FROM
        course
)
SELECT
    subject
    , median_students
    , avg(num_students) as avg_students
FROM subject_numstudents_medianstudents
GROUP BY 1, 2

使用AWS Redshift中的Group By計算中位數

問題描述

4 個解決方案

解決方案1
8 2015-02-15 07:01:54

解決方案2
2 已采納 2017-04-18 17:58:30

解決方案3
1 2015-02-13 20:44:28

解決方案4
0 2016-06-08 12:18:09

使用AWS Redshift中的Group By計算中位數

問題描述

4 個解決方案

解決方案1 8 2015-02-15 07:01:54

解決方案2 2 已采納 2017-04-18 17:58:30

解決方案3 1 2015-02-13 20:44:28

解決方案4 0 2016-06-08 12:18:09

解決方案1
8 2015-02-15 07:01:54

解決方案2
2 已采納 2017-04-18 17:58:30

解決方案3
1 2015-02-13 20:44:28

解決方案4
0 2016-06-08 12:18:09