如何计算pyspark数据框中一列中每个分类变量的频率？

Question

Say I have a pyspark dataframe: 假设我有一个pyspark数据框：

df.show()
+-----+---+
|  x  |  y|
+-----+---+
|alpha|  1|
|beta |  2|
|gamma|  1|
|alpha|  2|
+-----+---+

I want to count how many occurrence alpha , beta and gamma there are in column x . 我想计算x栏中有多少个alpha ， beta和gamma出现。 How do I do this in pyspark? 如何在pyspark中做到这一点？

Answer 1

使用pyspark.sql.DataFrame.cube() ：

df.cube("x").count().show()

如何计算pyspark数据框中一列中每个分类变量的频率？

问题描述

1 个解决方案

解决方案1
5 2018-03-20 05:27:07

如何计算pyspark数据框中一列中每个分类变量的频率？

问题描述

1 个解决方案

解决方案1 5 2018-03-20 05:27:07

解决方案1
5 2018-03-20 05:27:07