如何根據條件聚合數據

Question

有下表：

+--------+-------+-------+-------+
| categ. | elem. | atr_1 | atr_2 |
+--------+-------+-------+-------+
|      1 |     1 |     2 |     1 |
|      1 |     2 |     2 |     2 |
|      2 |     3 |     1 |     3 |
|      2 |     4 |     1 |     3 |
+--------+-------+-------+-------+

...我正在嘗試獲取顯示每個類別最佳元素的結果表：

+--------+--------+
| categ. | elem.  |
+--------+--------+
|      1 |      2 |
|      2 |      3 |
+- ------+--------+

為了確定哪個元素是每個類別的“最佳”，系統需要檢查每個類別哪個元素具有 max(atr_1)。 如果檢索到多個元素，將查看檢索到的元素的 max(atr_2)。 如果檢索到多個元素，則其中一個結果將隨機分配給該類別。

我無法弄清楚如何聚合和使用條件語句來編寫所需的查詢。 有什么建議嗎？

我在 Google BigQuery 中使用標准 SQL。

提前致謝

Answer 1

我們可以在這里使用ROW_NUMBER ：

WITH cte AS (
    SELECT *, ROW_NUMBER() OVER (PARTITION BY category ORDER BY atr_1 DESC, atr_2 DESC) rn
    FROM yourTable
)

SELECT category, element
FROM cte
WHERE rn = 1;

Answer 2

解決這個問題的 BigQuery'ish 方法只使用聚合：

select (array_agg(t order by atr_1 desc, atr_2 desc limit 1))[ordinal(1)].* except (atr_1, atr_2)
from t
group by categ;

Answer 3

以下是 BigQuery 標准 SQL

#standardSQL
SELECT AS VALUE 
  ARRAY_AGG(
    STRUCT(categ, elem) ORDER BY atr_1 DESC, atr_2 DESC LIMIT 1
  )[OFFSET(0)]
FROM `project.dataset.table`
GROUP BY categ

如果適用於您問題中的示例數據 - output 是

Row categ   elem     
1   1       2    
2   2       3

如何根據條件聚合數據

問題描述

3 個解決方案

解決方案1
0 2020-09-02 07:56:44

解決方案2
0 已采納 2020-09-02 11:34:56

解決方案3
0 2020-09-02 17:55:58

如何根據條件聚合數據

問題描述

3 個解決方案

解決方案1 0 2020-09-02 07:56:44

解決方案2 0 已采納 2020-09-02 11:34:56

解決方案3 0 2020-09-02 17:55:58

解決方案1
0 2020-09-02 07:56:44

解決方案2
0 已采納 2020-09-02 11:34:56

解決方案3
0 2020-09-02 17:55:58