Pyspark：將平均值作為新列添加到 DataFrame

Question

我正在計算數據框中一列的平均值，但它導致所有值都為零。 有人可以幫助我了解為什么會這樣嗎？ 以下是某列改造前后的代碼和表格。

在計算平均值並添加“平均值”列之前

result.select("dis_price_released").show(10)
 +------------------+
 |dis_price_released|
 +------------------+
 |               0.0|
 |               4.0|
 |               4.0|
 |               4.0|
 |               1.0|
 |               4.0|
 |               4.0|
 |               0.0|
 |               4.0|
 |               0.0|
 +------------------+

計算均值並添加均值列后

w = Window().partitionBy("dis_price_released").rowsBetween(-sys.maxsize, sys.maxsize)
df2 = result.withColumn("mean", avg("dis_price_released").over(w))
df2.select("dis_price_released", "mean").show(10)

+------------------+----+
|dis_price_released|mean|
+------------------+----+
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
|               0.0| 0.0|
+------------------+----+

Answer 1

您可以先計算整列的avg ，然后使用lit()將其作為變量添加到DataFrame ，不需要窗口函數：

from pyspark.sql.functions import lit

mean = df.groupBy().avg("dis_price_released").take(1)[0][0]
df.withColumn("test", lit(mean)).show()
 +------------------+----+
|dis_price_released|test|
+------------------+----+
|               0.0| 2.5|
|               4.0| 2.5|
|               4.0| 2.5|
|               4.0| 2.5|
|               1.0| 2.5|
|               4.0| 2.5|
|               4.0| 2.5|
|               0.0| 2.5|
|               4.0| 2.5|
|               0.0| 2.5|
+------------------+----+

Answer 2

這是解決問題的另一種方法

df.withColumn("mean", lit(df.select(avg("dis_price_released").as("temp")).first().getAs("temp"))).show

Answer 3

問題是，如果您有一列希望計算所有行的平均值，則根本不應按任何列進行分區。 在這種情況下，您也不需要設置 rowsBetween。 因此（假設正確的導入和結果 DataFrame 的存在）你的代碼應該是：

w = Window().partitionBy()
df2 = result.withColumn("mean", avg("dis_price_released").over(w))
df2.select("dis_price_released", "mean").show(10)

Pyspark：將平均值作為新列添加到 DataFrame

問題描述

在計算平均值並添加“平均值”列之前

計算均值並添加均值列后

3 個解決方案

解決方案1
2 已采納 2017-06-06 07:57:23

解決方案2
0 2017-06-23 08:52:47

解決方案3
0 2023-01-07 19:21:01

Pyspark：將平均值作為新列添加到 DataFrame

問題描述

在計算平均值並添加“平均值”列之前

計算均值並添加均值列后

3 個解決方案

解決方案1 2 已采納 2017-06-06 07:57:23

解決方案2 0 2017-06-23 08:52:47

解決方案3 0 2023-01-07 19:21:01

解決方案1
2 已采納 2017-06-06 07:57:23

解決方案2
0 2017-06-23 08:52:47

解決方案3
0 2023-01-07 19:21:01