[英]Concatenating datasets of different RDDs in Apache spark using scala
有没有办法在Spark中串联两个不同RDD
的数据集?
要求是-我使用具有相同列名的scala创建两个中间RDD,需要将两个RDD的这些结果组合在一起并缓存该结果以访问UI。 如何在此处合并数据集?
RDD的类型为spark.sql.SchemaRDD
我认为您正在寻找RDD.union
val rddPart1 = ???
val rddPart2 = ???
val rddAll = rddPart1.union(rddPart2)
示例(在Spark-shell上)
val rdd1 = sc.parallelize(Seq((1, "Aug", 30),(1, "Sep", 31),(2, "Aug", 15),(2, "Sep", 10)))
val rdd2 = sc.parallelize(Seq((1, "Oct", 10),(1, "Nov", 12),(2, "Oct", 5),(2, "Nov", 15)))
rdd1.union(rdd2).collect
res0: Array[(Int, String, Int)] = Array((1,Aug,30), (1,Sep,31), (2,Aug,15), (2,Sep,10), (1,Oct,10), (1,Nov,12), (2,Oct,5), (2,Nov,15))
我有同样的问题。 要按行而不是列进行合并,请使用unionAll:
val rddPart1= ???
val rddPart2= ???
val rddAll = rddPart1.unionAll(rddPart2)
我在阅读数据框的方法摘要后找到了它。 有关更多信息, 请访问: https : //spark.apache.org/docs/latest/api/java/org/apache/spark/sql/DataFrame.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.