簡體   English   中英

如何通過在python中添加2個RDD的對應元素來創建RDD

[英]How to create a RDD by adding the corresponding elements of 2 RDDs in python

所以我有 2 個 RDD(比如說 RDD1 和 RDD2),每個都有一個數字列表。 這兩個列表大小相同。 我想創建一個 RDD3,其中 RDD3 中的每個元素都是 RDD1 和 RDD2 的相應元素的加法。 如何使用 pyspark 函數在 python 中執行此操作?

如果列表不是太大,那么以下可以工作。 讓我知道這是否有效或您是否有其他建議

rdd1 = sc.parallelize([100,200,300])
rdd2 = sc.parallelize([101,202,303])
print(rdd1.collect())
print(rdd2.collect())
# [100, 200, 300]
# [101, 202, 303]
output = []
for i, element in enumerate(rdd1.collect()):
  output.append(element + rdd2.collect()[i])
rdd3 = sc.parallelize(output)
print(rdd3.collect())
# [201, 402, 603]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM