SQL count distinct over partition by 累计

Question

我正在使用 AWS Athena（基于 Presto）并且我有这个名为base的表：

ID	类别	年	月
1	一个	2021	6
1	b	2022	8
1	一个	2022	11
2	一个	2022	1
2	一个	2022	4
2	b	2022	6

我想制作一个查询，计算每个 id 类别的不同值，每月和每年累积，但保留原始列：

ID	类别	年	月	总和
1	一个	2021	6	1
1	b	2022	8	2
1	一个	2022	11	2
2	一个	2022	1	1
2	一个	2022	4	1
2	b	2022	6	2

我尝试执行以下查询但没有成功：

SELECT id, 
       category, 
       year, 
       month, 
       COUNT(category) OVER (PARTITION BY id, ORDER BY year, month) AS sumC FROM base;

这导致1, 2, 3, 1, 2, 3这不是我想要的。 我宁愿在窗口函数中需要类似COUNT(DISTINCT)的东西，尽管它不支持作为构造。

我还尝试了DENSE_RANK技巧：

  DENSE_RANK() OVER (PARTITION BY id ORDER BY category) 
+ DENSE_RANK() OVER (PARTITION BY id ORDER BY category) 
- 1 as sumC

但是，由于year和month之间没有排序，它只会导致2, 2, 2, 2, 2, 2 。

任何帮助表示赞赏！

Answer 1

一种选择是

创建一个新列，该列将包含第一次看到每个“类别”的时间（按“ id ”、“ category ”分区并按“ year ”、“ month ”排序）
计算此列的运行总和，具有相同的分区

WITH cte AS (
    SELECT *, 
           CASE WHEN ROW_NUMBER() OVER(
                         PARTITION BY id, category
                         ORDER     BY year, month) = 1
                THEN 1 
                ELSE 0 
           END AS rn1
    FROM base
    ORDER BY id, 
             year_, 
             month_
)
SELECT id,
       category,
       year_,
       month_,
       SUM(rn1) OVER(
            PARTITION BY id
            ORDER     BY year, month 
       ) AS sumC
FROM cte

对你起作用吗？

SQL count distinct over partition by 累计

问题描述

1 个解决方案

解决方案1
3 已采纳 2022-06-14 14:49:34

SQL count distinct over partition by 累计

问题描述

1 个解决方案

解决方案1 3 已采纳 2022-06-14 14:49:34

解决方案1
3 已采纳 2022-06-14 14:49:34