使用Spark和Scala膨脹數據集

Question

這是我的要求

輸入

customer_id status  start_date  end_date
1   Y   20140101    20140105
2   Y   20140201    20140203

產量

customer_id status  date
1   Y   20140101
1   Y   20140102
1   Y   20140103
1   Y   20140104
1   Y   20140105
2   Y   20140201
2   Y   20140202
2   Y   20140202

我正在嘗試通過火花中的笛卡爾積來實現這一目標，它看起來效率很低。 我的數據集太大。 我正在尋找更好的選擇。

Answer 1

如果我正確地理解了您的想法，您可以按照以下方式進行操作：

  val conf = new SparkConf().setMaster("local[2]").setAppName("test")
  val sc = new SparkContext(conf)

  case class Input(customerId: Long, status: String, startDate: LocalDate, endDate: LocalDate)
  case class Output(customerId: Long, status: String, date: LocalDate)

  val input: RDD[Input] = sc.parallelize(Seq(
    Input(1, "Y", LocalDate.of(2014, 1, 1), LocalDate.of(2014, 1, 5)),
    Input(2, "Y", LocalDate.of(2014, 1, 1), LocalDate.of(2014, 1, 3))
  ))

  val result: RDD[Output] = input flatMap { input =>
    import input._
    val dates = Stream.iterate(startDate)(_.plusDays(1)).takeWhile(!_.isAfter(endDate))
    dates.map(date => Output(customerId, status, date))
  }

  result.collect().foreach(println)

輸出：

Output(1,Y,2014-01-01)
Output(1,Y,2014-01-02)
Output(1,Y,2014-01-03)
Output(1,Y,2014-01-04)
Output(1,Y,2014-01-05)
Output(2,Y,2014-01-01)
Output(2,Y,2014-01-02)
Output(2,Y,2014-01-03)

使用Spark和Scala膨脹數據集

問題描述

1 個解決方案

解決方案1
1 已采納 2015-04-06 14:30:07

使用Spark和Scala膨脹數據集

問題描述

1 個解決方案

解決方案1 1 已采納 2015-04-06 14:30:07

解決方案1
1 已采納 2015-04-06 14:30:07