如何计算Spark数据帧的列中每个不同元素的出现次数

Question

假设我有以下格式的dataframe ：

-------------------------------
   col1    |  col2    | col3
-------------------------------
value11    | value21  | value31
value12    | value22  | value32
value11    | value22  | value33
value12    | value21  | value33

在这里，列col1具有value11, value12作为不同值。 我想要列col1的每个不同值value11, value12的出现总数。

Answer 1

您可以groupBy col1 ，然后count ：

import org.apache.spark.sql.functions.count

df.groupBy("col1").agg(count("col1")).show
+-------+-----------+
|   col1|count(col1)|
+-------+-----------+
|value12|          2|
|value11|          2|
+-------+-----------+

如果您想知道col1中有多少个不同的值，可以使用countDistinct ：

import org.apache.spark.sql.functions.countDistinct

df.agg(countDistinct("col1").as("n_distinct")).show
+----------+
|n_distinct|
+----------+
|         2|
+----------+

如何计算Spark数据帧的列中每个不同元素的出现次数

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-09-11 01:01:02

如何计算Spark数据帧的列中每个不同元素的出现次数

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-09-11 01:01:02

解决方案1
1 已采纳 2017-09-11 01:01:02