[英]Pyspark - Fill blank months with 0 in dataframe
免责声明:我对 pyspark 非常陌生
我在id
和month_year
上对 dataframe 进行了分组,以获取用户与您的产品互动的总数。 现在这个问题是几个月没有活动现在显示我的最终 df。
这是它的完成方式:
app_sessions_per_month = app_sessions.where("session_start_date_pt > '2019-05-25'").groupby('id','month_year').agg(F.sum('action').alias('count'))
+--------------------+----------+----------------------+
| core_id|month_year|month_sum_detailaction|
+--------------------+----------+----------------------+
|aa01bb6f-2dd8-43e...| 7_2019| 0|
|aa01bb6f-2dd8-43e...| 9_2019| 0|
|aa01bb6f-2dd8-43e...| 10_2019| 0|
+--------------------+----------+----------------------+
日期实际上是 go 从05_2019
到05_2020
。
原DF:
id month_year count
1. 02_2020. 1
1. 03_2020. 4
1. 05_2020. 2
1. 06_2020. 7
1. 07_2020. 2
所需的DF:
id month_year count
1. 01_2020. 0
1. 02_2020. 1
1. 03_2020. 4
1 04_2020. 0
1. 05_2020. 2
1. 06_2020. 7
1. 07_2020. 2
现在这个例子只显示了 1 个id
,但我的实际数据集有数百万个 id
任何帮助将非常感激。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.