Apache Spark：如何將Spark DataFrame轉換為類型為RDD [（Type1，Type2，...）]的RDD？

Question

例如，假設我有DataFrame：

var myDF = sc.parallelize(Seq(("one",1),("two",2),("three",3))).toDF("a", "b")

我可以用地圖將它轉換為RDD[(String, Int)] ：

var myRDD = myDF.map(r => (r(0).asInstanceOf[String], r(1).asInstanceOf[Int]))

有沒有更好的方法來實現這一點，可能使用DF架構？

Answer 1

在Row使用模式匹配：

import org.apache.spark.sql.Row

myDF.map{case Row(a: String, b: Int) => (a, b)}

在Spark 1.6+中，您可以使用Dataset ，如下所示：

myDF.as[(String, Int)].rdd