[英]Spark for loop with Rdd transformation
我正在尝试完成以下任务:
For iterator i from 0 to n
Create data frames using i as one of the filter criteria in the select statement of sparksql
Create Rdd from dataframe
Perform multiple operations on rdd
如何确保for循环有效? 我正在尝试在群集上运行Scala代码。
首先,我建议在某些测试套件中本地运行它(例如在scalatest中)。 如果您不是单元/集成测试的类型,则可以在迭代数据框时对它们进行简单的DF.show()
处理。 这将从每个数据帧中打印一个样本。
(0 until 5).foreach(i => {
val df = [some data frame you use i in filtering]
df.show()
val df_rdd = df.rdd
})
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.