[英]How do I count frequency of each categorical variable in a column in pyspark dataframe for multiple columns?
[英]How to count frequency of each categorical variable in a column in pyspark dataframe?
假設我有一個pyspark數據框:
df.show()
+-----+---+
| x | y|
+-----+---+
|alpha| 1|
|beta | 2|
|gamma| 1|
|alpha| 2|
+-----+---+
我想計算x
欄中有多少個alpha
, beta
和gamma
出現。 如何在pyspark中做到這一點?
使用pyspark.sql.DataFrame.cube()
:
df.cube("x").count().show()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.