簡體   English   中英

RDD對JavaRDD轉換的性能影響

[英]Performance Impact of RDD to JavaRDD conversion

我有一個像這樣的代碼,我想在JavaRDD而不是RDD上工作。 所以,我在這里進行轉換。 我想知道這種轉換對性能的影響,特別是當我處理GB數據時。

RDD<String> textFile = sc.textFile(filePath, 2);
JavaRDD<String> javaRDD = textFile.toJavaRDD(); 

這是廣泛的轉變還是縮小? JavaRDD和RDD有什么區別?

沒有明顯的性能損失JavaRDDRDD的簡單包裝,只是為了使Java代碼的調用更方便。 它將原始RDD保存為其成員,並在任何方法調用上調用該成員的方法,例如(來自JavaRDD.scala ):

def cache(): JavaRDD[T] = wrapRDD(rdd.cache()) 

wrapRDD歸結為類似於new JavaRDD[T](rdd) ,所以唯一的性能損失是為每個方法調用創建一個瘦Java對象,但這完全可以忽略不計,因為它沒有在RDD中的每個元素完成,而是一次整個賓語。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM