SQL/Hive 計數不同的列

Question

我如何在 Hive 中做到這一點？

    columnA       columnB    columnC
     100.10      50.60       30
     100.10      50.60       30
     100.10      50.60       20
     100.10      70.80       40

輸出應該是：

  columnA   columnB    No_of_distinct_colC
  100.10    50.60       2
  100.10    70.80       1

我認為正確的查詢：

SELECT columnA,columnB,COUNT(distinct column C)
from table_name
group by columnA,columnB

這樣對嗎？ SQL也很好。

更新：如何找到 columnC 的標准偏差？ 盡快需要這個。

Answer 1

是的，這幾乎是正確的。 但是你有一個簡單的錯誤。 您的列名在 COUNT 中是錯誤的。

SELECT columnA,columnB,COUNT(DISTINCT columnC) No_of_distinct_colC
from table_name
group by columnA,columnB

Answer 2

如果您使用的是 PySpark，以下代碼應該可以工作：

import pyspark.sql.functions as F
spark.sql('select * from table_name')\
         .groupby(columnA, columnB)\
         .agg(F.countDistinct('columnC') ).show()

Answer 3

SELECT * 
FROM
(
    SELECT columnA, columnB, COUNT(DISTINCT column C) AS dis_col
    FROM table_name
    GROUP BY columnA, columnB
) A;

SQL/Hive 計數不同的列

問題描述

3 個解決方案

解決方案1
33 已采納 2013-08-07 01:22:50

解決方案2
0 2021-07-16 19:26:46

解決方案3
-4 2013-10-06 15:20:50

SQL/Hive 計數不同的列

問題描述

3 個解決方案

解決方案1 33 已采納 2013-08-07 01:22:50

解決方案2 0 2021-07-16 19:26:46

解決方案3 -4 2013-10-06 15:20:50

解決方案1
33 已采納 2013-08-07 01:22:50

解決方案2
0 2021-07-16 19:26:46

解決方案3
-4 2013-10-06 15:20:50