PySpark 數據幀分組和計數空值

Question

我有以下形式的 Spark 數據框：

+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+

我正在嘗試按“年份”對所有值進行分組，並計算每年每列中缺失值的數量。

我找到了以下代碼段（忘了出處）：

df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()

這在計算每列缺失值的數量時非常有效。 但是，我不確定如何修改它以計算每年的缺失值。

任何指向正確方向的指針將不勝感激。

Answer 1

您可以使用相同的邏輯並添加一個組。 請注意，我還從聚合列中刪除了“年份”，但這是可選的（您將獲得兩個“年份”列）。

columns = filter(lambda x: x != "year", df.columns)
df.groupBy("year")\
  .agg(*(sum(col(c).isNull().cast("int")).alias(c) for c in columns))\
  .show()

PySpark 數據幀分組和計數空值

問題描述

1 個解決方案

解決方案1
4 已采納 2019-03-20 16:54:25

PySpark 數據幀分組和計數空值

問題描述

1 個解決方案

解決方案1 4 已采納 2019-03-20 16:54:25

解決方案1
4 已采納 2019-03-20 16:54:25