繁体   English   中英

Spark:根据另一个RDD中的数组元素获取RDD的元素

[英]Spark: Get elements of an RDD based on the elements of an array in another RDD

在Spark Scala框架中,我有一个RDD rdd1 ,其中每个元素代表矩阵A的单个元素:

val rdd1 = dist.map{case (((x,y),z,v)) => ((x,y),v)}

x代表行, y代表列, v代表矩阵A的值。

我还有另一个RDD rdd2 ,形式为RDD[index, Array[(x, y)]] ,其中每个元素中的数组代表矩阵A的元素集,存储在rdd1 ,该元素中表示的特定index

现在,我需要做的是获取每个index的矩阵A元素的index ,并保留包括index(x,y)v所有数据。 什么是这样做的好方法?

如果我理解正确,那么您的问题可以归结为:

val valuesRdd = sc.parallelize(Seq(
//((x, y), v)
  ((0, 0), 5.5),            
  ((1, 0), 7.7)
))

val indicesRdd = sc.parallelize(Seq(
//(index, Array[(x, y)])
  (123, Array((0, 0), (1, 0))) 
))

并且您想要合并这些RDD以获取所有值(index, (x, y), v) ,在这种情况下为(123, (0,0), 5.5)(123, (1,0), 7.7)

您绝对可以使用join来执行此操作,因为两个RDD都有一个公用列(x, y) ,但是由于其中一个实际上具有Array[(x, y)] ,因此必须首先将其分解为一组行:

val explodedIndices = indicesRdd.flatMap{case (index, coords: Array[(Int, Int)]) => coords.map{case (x, y) => (index, (x, y))}}
// Each row exploded into multiple rows (index, (x, y))

val keyedIndices = explodedIndices.keyBy{case (index, (x, y)) => (x, y)}
// Each row keyed by the coordinates (x, y)

val keyedValues = valuesRdd.keyBy{case ((x, y), v) => (x, y)}
// Each row keyed by the coordinates (x, y)

// Because we have common keys, we can join!
val joined = keyedIndices.join(keyedValues)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM