为spark scala中的数据框中的每个组采样不同数量的随机行

Question

目标是为每个组在数据帧中采样（不替换）不同数量的行。 要为特定组采样的行数在另一个数据帧中。

示例：idDF是要采样的数据帧。 这些组由ID列表示。 数据帧planDF指定每个组的样本行数，其中“datesToUse”表示行数，“ID”表示组。 “totalDates”是该组的总行数，可能有用也可能没用。

最终结果应该具有从第一组（ID 1）采样的3行，从第二组采样的2行（ID 2）和从第三组采样的1行（ID 3）。

val idDF = Seq(
  (1, "2017-10-03"),
  (1, "2017-10-22"),
  (1, "2017-11-01"),
  (1, "2017-10-02"),
  (1, "2017-10-09"),
  (1, "2017-12-24"),
  (1, "2017-10-20"),
  (2, "2017-11-17"),
  (2, "2017-11-12"),
  (2, "2017-12-02"),      
  (2, "2017-10-03"),
  (3, "2017-12-18"),
  (3, "2017-11-21"),
  (3, "2017-12-13"),
  (3, "2017-10-08"),
  (3, "2017-10-16"),
  (3, "2017-12-04")
 ).toDF("ID", "date")

val planDF = Seq(
  (1, 3, 7),
  (2, 2, 4),
  (3, 1, 6)
 ).toDF("ID", "datesToUse", "totalDates")

这是结果数据框应该是什么样子的一个例子：

+---+----------+
| ID|      date|
+---+----------+
|  1|2017-10-22|
|  1|2017-11-01|
|  1|2017-10-20|
|  2|2017-11-12|
|  2|2017-10-03|
|  3|2017-10-16|
+---+----------+

到目前为止，我尝试使用DataFrame的示例方法： https ：//spark.apache.org/docs/1.5.0/api/java/org/apache/spark/sql/DataFrame.html以下是一个示例适用于整个数据框架。

def sampleDF(DF: DataFrame, datesToUse: Int, totalDates: Int): DataFrame = {
  val fraction = datesToUse/totalDates.toFloat.toDouble
  DF.sample(false, fraction)
}

我无法弄清楚如何为每个组使用这样的东西。 我尝试将planDF表加入idDF表并使用窗口分区。

我的另一个想法是以某种方式创建一个随机标记为True / false的新列，然后对该列进行过滤。

Answer 1

完全在入住Dataframes另一种选择是计算概率使用planDF ，与加盟idDF ，追加随机数的一列，然后进行筛选。 sql.functions是， sql.functions有一个rand函数。

import org.apache.spark.sql.functions._

import spark.implicits._

val probabilities = planDF.withColumn("prob", $"datesToUse" / $"totalDates")

val dfWithProbs = idDF.join(probabilities, Seq("ID"))
  .withColumn("rand", rand())
  .where($"rand" < $"prob")

（你需要仔细检查那不是整数除法。）

Answer 2

假设您的planDF足够小以便collect ，您可以使用Scala的foldLeft遍历id列表并累积每个id的示例Dataframe：

import org.apache.spark.sql.{Row, DataFrame}

def sampleByIdDF(DF: DataFrame, id: Int, datesToUse: Int, totalDates: Int): DataFrame = {
  val fraction = datesToUse.toDouble / totalDates
  DF.where($"id" === id ).sample(false, fraction)
}

val emptyDF = Seq.empty[(Int, String)].toDF("ID", "date")

val planList = planDF.rdd.collect.map{ case Row(x: Int, y: Int, z: Int) => (x, y, z) }
// planList: Array[(Int, Int, Int)] = Array((1,3,7), (2,2,4), (3,1,6))

planList.foldLeft( emptyDF ){
  case (accDF: DataFrame, (id: Int, num: Int, total: Int)) =>
    accDF union sampleByIdDF(idDF, id, num, total)
}
// res1: org.apache.spark.sql.DataFrame = [ID: int, date: string]

// res1.show
// +---+----------+
// | ID|      date|
// +---+----------+
// |  1|2017-10-03|
// |  1|2017-11-01|
// |  1|2017-10-02|
// |  1|2017-12-24|
// |  1|2017-10-20|
// |  2|2017-11-17|
// |  2|2017-11-12|
// |  2|2017-12-02|
// |  3|2017-11-21|
// |  3|2017-12-13|
// +---+----------+

请注意，方法sample()不一定生成方法参数中指定的确切数量的样本。 这是一个相关的SO Q＆A 。

如果你的planDF很大，你可能不得不考虑使用RDD的聚合，它具有以下签名（跳过隐式参数）：

def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U): U

它的工作方式有点像foldLeft ，除了它在一个分区中有一个累加运算符，另外一个用于汇总来自不同分区的结果。

为spark scala中的数据框中的每个组采样不同数量的随机行

问题描述

2 个解决方案

解决方案1
2 已采纳 2018-03-02 01:40:12

解决方案2
1 2018-03-02 00:23:23

为spark scala中的数据框中的每个组采样不同数量的随机行

问题描述

2 个解决方案

解决方案1 2 已采纳 2018-03-02 01:40:12

解决方案2 1 2018-03-02 00:23:23

解决方案1
2 已采纳 2018-03-02 01:40:12

解决方案2
1 2018-03-02 00:23:23