[英]Spark for loop with Rdd transformation
我正在嘗試完成以下任務:
For iterator i from 0 to n
Create data frames using i as one of the filter criteria in the select statement of sparksql
Create Rdd from dataframe
Perform multiple operations on rdd
如何確保for循環有效? 我正在嘗試在群集上運行Scala代碼。
首先,我建議在某些測試套件中本地運行它(例如在scalatest中)。 如果您不是單元/集成測試的類型,則可以在迭代數據框時對它們進行簡單的DF.show()
處理。 這將從每個數據幀中打印一個樣本。
(0 until 5).foreach(i => {
val df = [some data frame you use i in filtering]
df.show()
val df_rdd = df.rdd
})
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.