簡體   English   中英

使用Rdd轉換進行Spark for循環

[英]Spark for loop with Rdd transformation

我正在嘗試完成以下任務:

For iterator i from 0 to n 
  Create data frames using i as one of the filter criteria in the select statement of sparksql 
  Create Rdd from dataframe 
Perform multiple operations on rdd 

如何確保for循環有效? 我正在嘗試在群集上運行Scala代碼。

首先,我建議在某些測試套件中本地運行它(例如在scalatest中)。 如果您不是單元/集成測試的類型,則可以在迭代數據框時對它們進行簡單的DF.show()處理。 這將從每個數據幀中打印一個樣本。

(0 until 5).foreach(i => {
  val df = [some data frame you use i in filtering]
  df.show()
  val df_rdd = df.rdd
})

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM