簡體   English   中英

使用Scala將RDD轉換為Spark中的DataFrame

[英]Convert an RDD to a DataFrame in Spark using Scala

我有textRDD: org.apache.spark.rdd.RDD[(String, String)]

我想將其轉換為DataFrame。 這些列對應於每個頁面(行)的標題和內容。

使用toDF() ,如果有的話,提供列名。

val textDF = textRDD.toDF("title": String, "content": String)
textDF: org.apache.spark.sql.DataFrame = [title: string, content: string]

要么

val textDF = textRDD.toDF()
textDF: org.apache.spark.sql.DataFrame = [_1: string, _2: string]

Shell自動導入(我正在使用1.5版),但是您可能需要在應用程序中import sqlContext.implicits._

我通常這樣做如下:

創建一個這樣的案例類:

case class DataFrameRecord(property1: String, property2: String)

然后,您可以使用case類使用map轉換為新結構:

rdd.map(p => DataFrameRecord(prop1, prop2)).toDF()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM