Apache Spark mapPartition奇怪的行为（懒惰的评估？）

Question

我正在尝试使用以下代码（在Scala中）在RDD上记录每个mapPartition操作的执行时间：

rdd.mapPartitions{partition =>
   val startTime = Calendar.getInstance().getTimeInMillis
   result = partition.map{element =>
      [...]
   }
   val endTime = Calendar.getInstance().getTimeInMillis
   logger.info("Partition time "+(startTime-endTime)+ "ms")
   result
}

问题在于它在开始执行映射操作之前立即记录了“分区时间”，因此我总是获得2毫秒左右的时间。

我通过观察Spark Web UI注意到了这一点，在日志文件中，有关执行时间的行在任务开始后立即出现，而不是在预期的末尾出现。

有人可以解释我为什么？ 在mapPartitions内部，代码应线性执行，否则我错了吗？

谢谢

问候卢卡

Answer 1

partitions内部的mapPartitions是一个Iterator[Row] ，以及Iterator被Scala中（即，当迭代器被消耗）懒惰地评估。 这与Spark的懒惰评估无关！

调用partitions.size将触发对映射的评估，但将消耗Iterator（因为它只能迭代一次）。 一个例子

val it = Iterator(1,2,3)
it.size // 3
it.isEmpty // true

您可以做的是将Iterator转换为非惰性集合类型：

rdd.mapPartitions{partition =>
   val startTime = Calendar.getInstance().getTimeInMillis
   result = partition.map{element =>
      [...]
   }.toVector // now the statements are evaluated
   val endTime = Calendar.getInstance().getTimeInMillis
   logger.info("Partition time "+(startTime-endTime)+ "ms")
   result.toIterator
}

编辑：请注意，您可以使用System.currentTimeMillis() （甚至System.nanoTime() ）来代替Calendar 。

Apache Spark mapPartition奇怪的行为（懒惰的评估？）

问题描述

1 个解决方案

解决方案1
4 已采纳 2017-08-02 13:57:51

Apache Spark mapPartition奇怪的行为（懒惰的评估？）

问题描述

1 个解决方案

解决方案1 4 已采纳 2017-08-02 13:57:51

解决方案1
4 已采纳 2017-08-02 13:57:51