簡體   English   中英

如何計算pyspark數據框中一列中每個分類變量的頻率?

[英]How to count frequency of each categorical variable in a column in pyspark dataframe?

假設我有一個pyspark數據框:

df.show()
+-----+---+
|  x  |  y|
+-----+---+
|alpha|  1|
|beta |  2|
|gamma|  1|
|alpha|  2|
+-----+---+

我想計算x欄中有多少個alphabetagamma出現。 如何在pyspark中做到這一點?

使用pyspark.sql.DataFrame.cube()

df.cube("x").count().show()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM