spark數據幀分組不計算空值

Question

我有一個 spark DataFrame，它按與計數聚合的列分組：

df.groupBy('a').agg(count("a")).show

+---------+----------------+
|a        |count(a)        |
+---------+----------------+
|     null|               0|
|      -90|           45684|
+---------+----------------+


df.select('a').filter('aisNull').count

返回

warning: there was one feature warning; re-run with -feature for details
res9: Long = 26834

這清楚地表明最初沒有計算空值。

這種行為的原因是什么？ 我本來希望（如果分組結果中包含null ）正確地看到計數。

Answer 1

是的， count應用到特定的列不計空值。 如果要包含空值，請使用：

df.groupBy('a).agg(count("*")).show

Answer 2

這種行為的原因是什么？

SQL-92 標准。 特別是（強調我的）：

令 T 為 <set function specification> 的參數或參數源。

如果指定了 COUNT(*)，則結果是 T 的基數。

否則，令 TX 為單列表，它是將 <value expression> 應用於 T 的每一行並消除空值的結果。

如果指定了 DISTINCT，則令 TXA 為從 TX 中消除冗余重復值的結果。 否則，令 TXA 為 TX。

如果指定了 COUNT，則結果是 TXA 的基數。

Answer 3

value_counts(dropna=False) pyspark 的等效項：

from pyspark.sql import functions as f
df.groupBy('a').agg(f.count('*')).orderBy('count(1)',ascending=False).show()

spark數據幀分組不計算空值

問題描述

3 個解決方案

解決方案1
9 已采納 2017-09-18 09:53:03

解決方案2
4

解決方案3
0 2020-06-18 09:57:26

spark數據幀分組不計算空值

問題描述

3 個解決方案

解決方案1 9 已采納 2017-09-18 09:53:03

解決方案2 4

解決方案3 0 2020-06-18 09:57:26

解決方案1
9 已采納 2017-09-18 09:53:03

解決方案2
4

解決方案3
0 2020-06-18 09:57:26