[英]Apache Spark forEach on RDDs of Tuple2 : returns one Value for all the Tuple2s in my RDD
我有这个代码给了我一个我无法解决的意外错误的结果:
// A method that calls the collectDataRDD(logValues, rowData) method :
// ....
// my collectDataRDD(Values, rowData) method :
问题是,当我尝试在数据对象上运行getStatus()或getValidationDate()等方法时,它是我的Tuple2的值,它只为我的JavaRDD中的所有对象提供一个输出,这是错误的,因为JavaRDD包含多个不同的对象。 但是,当我检查我的tuple2的键时,它给了我正确的结果。
我已经尝试了一切,仍然无法弄明白。 任何人都可以帮我解决这个问题。 提前收了很多。
验证是否
ticketsrdd.foreach((Tuple2<String, Data> rowData) -> {
collectLogDataRDD(logValues, rowData);
}
是你想要做的。 在每种元素中逐个调用此函数,在这种情况下,Tuple2只有一个条目。
JavaRDD<Tuple2<String, Data>> ticketsrdd=TransformToRDD.transformToRDD(transformer.transform());
DataStore.setData(tickets);
将是一种Map<String, Tuple2>
。 而你的Tuple2将有一个键作为String,一个值作为Data。
现在当你说Data ticket = rowData._2
; 你从1元组获得1个数据对象。 因此对于ticketsrdd
每个元组, ticketsrdd
调用collectLogDataRDD
。
让我们说ticketrdd有100个元素,然后它将调用collectLogDataRDD 100次,每次ticket.getStatus();
也将被打电话。
这就是代码正在做的事情。 你期望有什么不同的行为?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.