Spark DataFrame - 如何將單列轉換為多行

Question

需要將單行轉換為多列。 做了下面的事情。

val list = List("a", "b", "c", "d")

  import spark.implicits._

  val df = list.toDF("id")

  df.show()

  import spark.implicits._

   val transpose = list.zipWithIndex.map {
    case (_, index) => col("data").getItem(index).as(s"col_${index}")
  }

  df.select(collect_list($"id").as("data")).select(transpose: _*).show()

output：

+-----+-----+-----+-----+
|col_0|col_1|col_2|col_3|
+-----+-----+-----+-----+
|    a|    b|    c|    d|
+-----+-----+-----+-----+

做了一些事情並轉換它。 但是轉置 function 存在問題，它正在中繼原始數據（列表）。 如果我們在 df 中進行任何過濾，它將始終顯示 4 列，因為原始列表有 4。我怎樣才能縮短這個列表。

添加更多信息

df.filter($"id" =!="a" ).select(collect_list($"id").as("data")).select(transpose: _*).show()\

如果應用過濾條件並顯示命令

+-----+-----+-----+-----+
|col_0|col_1|col_2|col_3|
+-----+-----+-----+-----+
|    b|    c|    d| null|
+-----+-----+-----+-----+

這是錯誤的，應該顯示 3 列而不是 4 列。

Answer 1

你可以用 pivot 做到這一點：

val df = List("a", "b", "c", "d").toDF("id")

val dfFiltered = df.filter($"id"=!="a")

dfFiltered
  .groupBy().pivot($"id").agg(first($"id"))
  .toDF((0 until dfFiltered.count().toInt).map(i => s"col_$i"):_*)
  .show()

+-----+-----+-----+
|col_0|col_1|col_2|
+-----+-----+-----+
|    b|    c|    d|
+-----+-----+-----

Answer 2

根據 df 行數修剪列做了一些技巧。 讓我知道它是否有幫助

import org.apache.spark.sql.functions._

object TransposeV2 {

  def main(args: Array[String]): Unit = {
    val spark = Constant.getSparkSess

    val list = List("a", "b", "c", "d")

    import spark.implicits._

    val df = list.toDF("id")

    df.show()

    import spark.implicits._

    val transpose = list.zipWithIndex.map {
      case (_, index) => {
        col("data").getItem(index).as(s"col_${index}")
      }
    }

    df.select(collect_list($"id").as("data")).select(transpose: _*).show()

    val dfInterim = df.filter($"id" =!="a" )
    val finalElements : Int = dfInterim.count().toInt
    dfInterim.select(collect_list($"id").as("data")).select(transpose.take(finalElements): _*).show()
  }

}

Spark DataFrame - 如何將單列轉換為多行

問題描述

添加更多信息

2 個解決方案

解決方案1
2 已采納 2020-05-27 19:41:05

解決方案2
0 2020-05-27 17:26:45

Spark DataFrame - 如何將單列轉換為多行

問題描述

添加更多信息

2 個解決方案

解決方案1 2 已采納 2020-05-27 19:41:05

解決方案2 0 2020-05-27 17:26:45

解決方案1
2 已采納 2020-05-27 19:41:05

解決方案2
0 2020-05-27 17:26:45