[英]PySpark Dataframe Groupby and Count Null Values
我有以下形式的 Spark 數據框:
+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+
我正在嘗試按“年份”對所有值進行分組,並計算每年每列中缺失值的數量。
我找到了以下代碼段(忘了出處):
df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()
這在計算每列缺失值的數量時非常有效。 但是,我不確定如何修改它以計算每年的缺失值。
任何指向正確方向的指針將不勝感激。
您可以使用相同的邏輯並添加一個組。 請注意,我還從聚合列中刪除了“年份”,但這是可選的(您將獲得兩個“年份”列)。
columns = filter(lambda x: x != "year", df.columns)
df.groupBy("year")\
.agg(*(sum(col(c).isNull().cast("int")).alias(c) for c in columns))\
.show()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.