pyspark如何根据另一列的值返回一列的平均值？

Question

我不认为这会很困难，但是我无法理解如何在我的 spark 数据框中取一列的平均值。

数据框看起来像：

+-------+------------+--------+------------------+
|Private|Applications|Accepted|              Rate|
+-------+------------+--------+------------------+
|    Yes|         417|     349|0.8369304556354916|
|    Yes|        1899|    1720|0.9057398630858347|
|    Yes|        1732|    1425|0.8227482678983834|
|    Yes|         494|     313|0.6336032388663968|
|     No|        3540|    2001|0.5652542372881356|
|     No|        7313|    4664|0.6377683577191303|
|    Yes|         619|     516|0.8336025848142165|
|    Yes|         662|     513|0.7749244712990937|
|    Yes|         761|     725|0.9526938239159002|
|    Yes|        1690|    1366| 0.808284023668639|
|    Yes|        6075|    5349|0.8804938271604938|
|    Yes|         632|     494|0.7816455696202531|
|     No|        1208|     877|0.7259933774834437|
|    Yes|       20192|   13007|0.6441660063391442|
|    Yes|        1436|    1228|0.8551532033426184|
|    Yes|         392|     351|0.8954081632653061|
|    Yes|       12586|    3239|0.2573494358811378|
|    Yes|        1011|     604|0.5974282888229476|
|    Yes|         848|     587|0.6922169811320755|
|    Yes|        8728|    5201|0.5958982584784601|
+-------+------------+--------+------------------+

当Private等于“Yes”时，我想返回Rate列的平均值。 我怎样才能做到这一点？

Answer 1

尝试

df.filter(df['Private'] == 'Yes').agg({'Rate': 'avg'}).collect()[0]

Answer 2

做同样事情的第三个版本是：

from pyspark.sql.functions import col, avg
df_avg = df.filter(df["Private"] == "Yes").agg(avg(col("Rate")))
df_avg.show()

Answer 3

这将在 Scala 中起作用。 pyspark 代码应该非常相似。

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window

val df = List(
("yes", 10),
("yes", 30),
("No", 40)).toDF("private", "rate")

val df = l.toDF(List("private", "rate"))

val window =Window.partitionBy($"private")

df.
    withColumn("avg", 
                when($"private" === "No", null).
                otherwise(avg($"rate").over(window))
            ).
    show()

输入DF

+-------+----+
|private|rate|
+-------+----+
|    yes|  10|
|    yes|  30|
|     No|  40|
+-------+----+

输出 df

+-------+----+----+
|private|rate| avg|
+-------+----+----+
|     No|  40|null|
|    yes|  10|20.0|
|    yes|  30|20.0|
+-------+----+----+

Answer 4

尝试：

from pyspark.sql.functions import col, mean, lit

df.where(col("Private")==lit("Yes")).select(mean(col("Rate"))).collect()

pyspark如何根据另一列的值返回一列的平均值？

问题描述

4 个解决方案

解决方案1
1 2020-02-09 18:06:16

解决方案2
1 2020-02-09 18:52:22

解决方案3
1 2020-02-09 19:03:23

解决方案4
0 2020-02-09 18:07:08

pyspark如何根据另一列的值返回一列的平均值？

问题描述

4 个解决方案

解决方案1 1 2020-02-09 18:06:16

解决方案2 1 2020-02-09 18:52:22

解决方案3 1 2020-02-09 19:03:23

解决方案4 0 2020-02-09 18:07:08

解决方案1
1 2020-02-09 18:06:16

解决方案2
1 2020-02-09 18:52:22

解决方案3
1 2020-02-09 19:03:23

解决方案4
0 2020-02-09 18:07:08