繁体   English   中英

关于Tuple2的RDD的Apache Spark forEach:为我的RDD中的所有Tuple2返回一个值

[英]Apache Spark forEach on RDDs of Tuple2 : returns one Value for all the Tuple2s in my RDD

我有这个代码给了我一个我无法解决的意外错误的结果:

// A method that calls the collectDataRDD(logValues, rowData) method :

// ....
// my collectDataRDD(Values, rowData) method : 

问题是,当我尝试在数据对象上运行getStatus()或getValidationDate()等方法时,它是我的Tuple2的值,它只为我的JavaRDD中的所有对象提供一个输出,这是错误的,因为JavaRDD包含多个不同的对象。 但是,当我检查我的tuple2的键时,它给了我正确的结果。

我已经尝试了一切,仍然无法弄明白。 任何人都可以帮我解决这个问题。 提前收了很多。

验证是否

ticketsrdd.foreach((Tuple2<String, Data> rowData) -> {
    collectLogDataRDD(logValues, rowData);
}

是你想要做的。 在每种元素中逐个调用此函数,在这种情况下,Tuple2只有一个条目。

JavaRDD<Tuple2<String, Data>> ticketsrdd=TransformToRDD.transformToRDD(transformer.transform());
DataStore.setData(tickets);

将是一种Map<String, Tuple2> 而你的Tuple2将有一个键作为String,一个值作为Data。

现在当你说Data ticket = rowData._2 ; 你从1元组获得1个数据对象。 因此对于ticketsrdd每个元组, ticketsrdd调用collectLogDataRDD

让我们说ticketrdd有100个元素,然后它将调用collectLogDataRDD 100次,每次ticket.getStatus(); 也将被打电话。

这就是代码正在做的事情。 你期望有什么不同的行为?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM