繁体   English   中英

使用Rdd转换进行Spark for循环

[英]Spark for loop with Rdd transformation

我正在尝试完成以下任务:

For iterator i from 0 to n 
  Create data frames using i as one of the filter criteria in the select statement of sparksql 
  Create Rdd from dataframe 
Perform multiple operations on rdd 

如何确保for循环有效? 我正在尝试在群集上运行Scala代码。

首先,我建议在某些测试套件中本地运行它(例如在scalatest中)。 如果您不是单元/集成测试的类型,则可以在迭代数据框时对它们进行简单的DF.show()处理。 这将从每个数据帧中打印一个样本。

(0 until 5).foreach(i => {
  val df = [some data frame you use i in filtering]
  df.show()
  val df_rdd = df.rdd
})

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM