繁体   English   中英

Spark:如果 DataFrame 有架构,DataFrame 如何成为 Dataset[Row]

[英]Spark: How can DataFrame be Dataset[Row] if DataFrame's have a schema

这篇文章声称 Spark 中的DataFrame等效于Dataset[Row] ,但这篇博客文章表明DataFrame具有架构。

以博客文章中将 RDD 转换为DataFrame :如果DataFrameDataset[Row] ,那么将RDD转换为DataFrame应该是一样简单

val rddToDF = rdd.map(value => Row(value))

但相反它表明它是这个

val rddStringToRowRDD = rdd.map(value => Row(value))
val dfschema = StructType(Array(StructField("value",StringType)))
val rddToDF = sparkSession.createDataFrame(rddStringToRowRDD,dfschema)
val rDDToDataSet = rddToDF.as[String]

显然,数据框实际上是行和模式的数据集。

在 Spark 2.0 中,代码中有: type DataFrame = Dataset[Row]

它是Dataset[Row] ,只是因为定义。

Dataset也有模式,你可以使用printSchema()函数打印它。 通常 Spark 会推断模式,因此您不必自己编写它 - 但它仍然存在;)

您还可以执行createTempView(name)并在 SQL 查询中使用它,就像 DataFrames 一样。

换句话说, Dataset = DataFrame from Spark 1.5 + encoder ,它将行转换为您的类。 在 Spark 2.0 中合并类型后,DataFrame 成为Dataset[Row]的别名,因此没有指定的编码器。

关于转换: rdd.map() 也返回RDD ,它从不返回 DataFrame 。 你可以这样做:

// Dataset[Row]=DataFrame, without encoder
val rddToDF = sparkSession.createDataFrame(rdd)
// And now it has information, that encoder for String should be used - so it becomes Dataset[String]
val rDDToDataSet = rddToDF.as[String]

// however, it can be shortened to:
val dataset = sparkSession.createDataset(rdd)

请注意(除了T Gaweda的回答),每个Row ( Row.schema ) 都有一个关联的模式。 但是,直到将其集成到DataFrame (或Dataset[Row] )中时,才会设置此架构

scala> Row(1).schema
res12: org.apache.spark.sql.types.StructType = null

scala> val rdd = sc.parallelize(List(Row(1)))
rdd: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = ParallelCollectionRDD[5] at parallelize at <console>:28
scala> spark.createDataFrame(rdd,schema).first
res15: org.apache.spark.sql.Row = [1]
scala> spark.createDataFrame(rdd,schema).first.schema
res16: org.apache.spark.sql.types.StructType = StructType(StructField(a,IntegerType,true))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM