簡體   English   中英

PySpark 數據幀分組和計數空值

[英]PySpark Dataframe Groupby and Count Null Values

我有以下形式的 Spark 數據框:

+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+

我正在嘗試按“年份”對所有值進行分組,並計算每年每列中缺失值的數量。

我找到了以下代碼段(忘了出處):

df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()

這在計算每列缺失值的數量時非常有效。 但是,我不確定如何修改它以計算每年的缺失值。

任何指向正確方向的指針將不勝感激。

您可以使用相同的邏輯並添加一個組。 請注意,我還從聚合列中刪除​​了“年份”,但這是可選的(您將獲得兩個“年份”列)。

columns = filter(lambda x: x != "year", df.columns)
df.groupBy("year")\
  .agg(*(sum(col(c).isNull().cast("int")).alias(c) for c in columns))\
  .show()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM