繁体   English   中英

在 pyspark 中创建 rdd 的 rdd

[英]create rdd of rdd in pyspark

是否可以在 pyspark 中创建 rdd 的 rdd? 我试过了

rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])

并得到错误

UNION方法可用于执行此操作

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])

rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()

## [1, 2, 3, 4, 5, 6, 7, 8, 9]

作为旁注,现在建议使用DataFrameDataset API。

你可以加入2个RDD

rdd1.join(rdd2)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM