無法使用 WINDOW 函數（Spark SQL）計算 DISTINCT

Question

假設我有一個數據集樣本（表 1），如下所示 -

在這里，一個客戶可以使用多個令牌，一個令牌可以被多個客戶使用。 我正在嘗試獲取記錄的每個令牌、客戶和創建日期，以及在創建日期之前使用此令牌的客戶數量。

當我嘗試在 Spark SQL 中執行此查詢時，我收到以下錯誤 -

選項 1（相關子查詢）

SELECT 
t1.token, 
t1.customer_id, 
t1.creation_date,
(SELECT COUNT(DISTINCT t2.customer_id) FROM Table 1  t2
AND t1.token = t2.token 
AND t2.creation_date < t1.creation_date) cust_cnt
FROM Table 1  t1;

錯誤：非等式謂詞中不允許相關列

選項 2（交叉連接）

SELECT 
t1.token, 
t1.customer_id, 
t1.creation_date, 
COUNT(DISTINCT t2.customer_id) AS cust_cnt
FROM Table 1 t1, Table 1 t2
WHERE t1.token = t2.token
AND t2.creation_date < t1.creation_date 
GROUP BY t1.token, t1.customer_id, t1.creation_date;

問題：長時間運行的查詢，因為表 1 有數百萬行

是否有任何解決方法（例如，使用 window 函數）來優化 Spark SQL 中的此查詢？ 注意：window 函數不允許不同計數。

Answer 1

計算客戶第一次出現的次數：

SELECT t1.token, t1.customer_id, t1.creation_date,
       SUM(CASE WHEN seqnum = 1 THEN 1 ELSE 0 END) OVER (PARTITION BY token ORDER BY creation_date) as cust_cnt
FROM (SELECT t1.*,
             ROW_NUMBER() OVER (PARTITION BY token, customer_id ORDER BY creation_date) as seqnum
      FROM Table1  t1
     ) t1;

注意：這也計算當前行。 我猜這對於你想做的事情是可以接受的。

無法使用 WINDOW 函數（Spark SQL）計算 DISTINCT

問題描述

1 個解決方案

解決方案1
0 2021-06-13 19:41:13

無法使用 WINDOW 函數（Spark SQL）計算 DISTINCT

問題描述

1 個解決方案

解決方案1 0 2021-06-13 19:41:13

解決方案1
0 2021-06-13 19:41:13