計算一個 PySpark DataFrame 列的眾數？

Question

最終我想要的是一個列的模式，對於 DataFrame 中的所有列。 對於其他摘要統計信息，我看到了幾個選項：使用 DataFrame 聚合，或 map DataFrame 的列到向量的 RDD（我在colStats中也遇到了麻煩）。 但我不認為模式是一種選擇。

Answer 1

最終，我想要的是DataFrame中所有列的列模式。 對於其他摘要統計信息，我看到了兩個選擇：使用DataFrame聚合，或將DataFrame的列映射到矢量的RDD（這也是我遇到的麻煩），並使用colStats的colStats。 但是我不認為模式是一種選擇。

Answer 2

最終，我想要的是DataFrame中所有列的列模式。 對於其他摘要統計信息，我看到了兩個選擇：使用DataFrame聚合，或將DataFrame的列映射到矢量的RDD（這也是我遇到的麻煩），並使用colStats的colStats。 但是我不認為模式是一種選擇。

Answer 3

最終，我想要的是DataFrame中所有列的列模式。 對於其他摘要統計信息，我看到了兩個選擇：使用DataFrame聚合，或將DataFrame的列映射到矢量的RDD（這也是我遇到的麻煩），並使用colStats的colStats。 但是我不認為模式是一種選擇。

Answer 4

最終，我想要的是DataFrame中所有列的列模式。 對於其他摘要統計信息，我看到了兩個選擇：使用DataFrame聚合，或將DataFrame的列映射到矢量的RDD（這也是我遇到的麻煩），並使用colStats的colStats。 但是我不認為模式是一種選擇。

Answer 5

最終，我想要的是DataFrame中所有列的列模式。 對於其他摘要統計信息，我看到了兩個選擇：使用DataFrame聚合，或將DataFrame的列映射到矢量的RDD（這也是我遇到的麻煩），並使用colStats的colStats。 但是我不認為模式是一種選擇。

Answer 6

首先按count按列分組（我沒有計算null值），得到最大計數值（頻繁值）。 二、尋找最大計數值的key：

from pysprak.sql import functions as F

count_mode_val = df.groupBy("column_name").count().filter(F.col("column_name").isNotNull()).agg(F.max("count")).collect()[0][0]

mode_val = df.groupBy("column_name").count().filter(F.col("column_name").isNotNull()).filter(F.col("count") == count_mode_val).select("column_name").collect()[0][0]

計算一個 PySpark DataFrame 列的眾數？

問題描述

6 個解決方案

解決方案1
8 已采納 2016-01-05 08:54:59

解決方案2
2 2019-10-08 03:00:45

解決方案3
0 2018-03-30 09:03:19

解決方案4
0 2018-05-10 07:23:32

解決方案5
0 2021-01-27 05:29:50

解決方案6
0 2022-08-30 09:34:04

計算一個 PySpark DataFrame 列的眾數？

問題描述

6 個解決方案

解決方案1 8 已采納 2016-01-05 08:54:59

解決方案2 2 2019-10-08 03:00:45

解決方案3 0 2018-03-30 09:03:19

解決方案4 0 2018-05-10 07:23:32

解決方案5 0 2021-01-27 05:29:50

解決方案6 0 2022-08-30 09:34:04

解決方案1
8 已采納 2016-01-05 08:54:59

解決方案2
2 2019-10-08 03:00:45

解決方案3
0 2018-03-30 09:03:19

解決方案4
0 2018-05-10 07:23:32

解決方案5
0 2021-01-27 05:29:50

解決方案6
0 2022-08-30 09:34:04