繁体   English   中英

如何根据 PySpark 中的不同行条件进行计数?

[英]How do I count based on different rows conditions in PySpark?

我有以下数据框:

ID 支付 价值 日期
1 现金 200 2020-01-01
1 信用卡 500 2020-01-06
2 现金 300 2020-02-01
3 信用卡 400 2020-02-02
3 信用卡 500 2020-01-03
3 现金 200 2020-01-04

我想做的是计算有多少身份证同时使用了现金和信用卡。

例如,在这种情况下,将有 2 个同时使用现金和信用卡的 ID。

我将如何在 PySpark 上做到这一点?

您可以使用collect_set来计算每个用户有多少种付款方式。

from pyspark.sql import functions as F

(df
    .groupBy('ID')
    .agg(F.collect_set('Payment').alias('methods'))
    .withColumn('methods_size', F.size('methods'))
    .show()
)

# +---+-------------------+------------+
# | ID|            methods|methods_size|
# +---+-------------------+------------+
# |  1|[Credit Card, Cash]|           2|
# |  3|[Credit Card, Cash]|           2|
# |  2|             [Cash]|           1|
# +---+-------------------+------------+

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM