无法使用 WINDOW 函数（Spark SQL）计算 DISTINCT

Question

假设我有一个数据集样本（表 1），如下所示 -

在这里，一个客户可以使用多个令牌，一个令牌可以被多个客户使用。 我正在尝试获取记录的每个令牌、客户和创建日期，以及在创建日期之前使用此令牌的客户数量。

当我尝试在 Spark SQL 中执行此查询时，我收到以下错误 -

选项 1（相关子查询）

SELECT 
t1.token, 
t1.customer_id, 
t1.creation_date,
(SELECT COUNT(DISTINCT t2.customer_id) FROM Table 1  t2
AND t1.token = t2.token 
AND t2.creation_date < t1.creation_date) cust_cnt
FROM Table 1  t1;

错误：非等式谓词中不允许相关列

选项 2（交叉连接）

SELECT 
t1.token, 
t1.customer_id, 
t1.creation_date, 
COUNT(DISTINCT t2.customer_id) AS cust_cnt
FROM Table 1 t1, Table 1 t2
WHERE t1.token = t2.token
AND t2.creation_date < t1.creation_date 
GROUP BY t1.token, t1.customer_id, t1.creation_date;

问题：长时间运行的查询，因为表 1 有数百万行

是否有任何解决方法（例如，使用 window 函数）来优化 Spark SQL 中的此查询？ 注意：window 函数不允许不同计数。

Answer 1

计算客户第一次出现的次数：

SELECT t1.token, t1.customer_id, t1.creation_date,
       SUM(CASE WHEN seqnum = 1 THEN 1 ELSE 0 END) OVER (PARTITION BY token ORDER BY creation_date) as cust_cnt
FROM (SELECT t1.*,
             ROW_NUMBER() OVER (PARTITION BY token, customer_id ORDER BY creation_date) as seqnum
      FROM Table1  t1
     ) t1;

注意：这也计算当前行。 我猜这对于你想做的事情是可以接受的。

无法使用 WINDOW 函数（Spark SQL）计算 DISTINCT

问题描述

1 个解决方案

解决方案1
0 2021-06-13 19:41:13

无法使用 WINDOW 函数（Spark SQL）计算 DISTINCT

问题描述

1 个解决方案

解决方案1 0 2021-06-13 19:41:13

解决方案1
0 2021-06-13 19:41:13