DataBricks：火花 dataframe 的枢轴

Question

假设我有以下数据框

年份周一值1 值2 2019 年 1 月 10 日 2019 年 1 月 20 日 2019 年 2 月 30 日 2019 年 2 月 30 日 2019 年 2 月 10 日 10 月

我想 pivot 到：年 JAN_VALUE1 FEB_VALUE1 JAN_VALUE2 JAN_VALUE2 2019 30 40 30 40

任何方法来实现这一点。

Answer 1

这是我执行此操作的 pyspark 代码：

from pyspark.sql.functions import *
from pyspark.sql.types import *


values = [
  (2019,"Jan",10,10), 
  (2019,"Jan",20,20), 
  (2019,"FEB",30,30), 
  (2019,"FEB",10,10)
]

rdd = sc.parallelize(values)
schema = StructType([
    StructField("Year", IntegerType(), True),
    StructField("Mon", StringType(), True),
    StructField("value1", IntegerType(), True),
    StructField("value2", IntegerType(), True)
])

data = spark.createDataFrame(rdd, schema)

valu1Pivoted = data.groupBy("Year") \
                   .pivot("Mon") \
                   .sum("value1") \
                   .select(col("Year"), \
                           col("Jan").alias("JAN_VALUE1"), \
                            col("FEB").alias("FEB_VALUE1"))

valu2Pivoted = data.groupBy("Year") \
                   .pivot("Mon") \
                   .sum("value2") \
                   .select(col("Year"), \
                           col("Jan").alias("JAN_VALUE2"), \
                           col("FEB").alias("FEB_VALUE2"))

finalData = valu1Pivoted.join(valu2Pivoted, valu1Pivoted.Year == valu2Pivoted.Year, "inner") \
                  .drop(valu1Pivoted.Year) \
                  .select("Year", "JAN_VALUE1","FEB_VALUE1","JAN_VALUE2","FEB_VALUE2")
finalData.show(20,False)

结果：

+----+----------+----------+----------+----------+
|Year|JAN_VALUE1|FEB_VALUE1|JAN_VALUE2|FEB_VALUE2|
+----+----------+----------+----------+----------+
|2019|30        |40        |30        |40        |
+----+----------+----------+----------+----------+

DataBricks：火花 dataframe 的枢轴

问题描述

1 个解决方案

解决方案1
0 2019-10-04 15:29:43

DataBricks：火花 dataframe 的枢轴

问题描述

1 个解决方案

解决方案1 0 2019-10-04 15:29:43

解决方案1
0 2019-10-04 15:29:43