Spark DataFrame：以Avro編寫時如何指定架構

Question

我想使用提供的Avro模式而不是Spark的自動生成模式以Avro格式編寫DataFrame。 如何告訴Spark在寫入時使用我的自定義架構？

Answer 1

在https://github.com/databricks/spark-avro/pull/222/中應用補丁后，我可以在寫入時指定一個架構，如下所示：

df.write.option("forceSchema", myCustomSchemaString).avro("/path/to/outputDir")

Answer 2

希望下面的方法有所幫助。

import org.apache.spark.sql.types._

val schema = StructType( StructField("title", StringType, true) ::StructField("averageRating", DoubleType, false) ::StructField("numVotes", IntegerType, false) :: Nil)

titleMappedDF.write.option("avroSchema", schema.toString).avro("/home/cloudera/workspace/movies/avrowithschema")

Example:


Download data from below site. https://datasets.imdbws.com/
Download the movies data title.ratings.tsv.gz
Copy to below location. /home/cloudera/workspace/movies/title.ratings.tsv.gz


Start Spark-shell and type below command.

import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
val title = sqlContext.read.text("file:///home/cloudera/Downloads/movies/title.ratings.tsv.gz")
scala> title.limit(5).show
+--------------------+
|               value|
+--------------------+
|tconst averageRat...|
|  tt0000001    5.8 1350|
|   tt0000002   6.5 157|
|   tt0000003   6.6 933|
|    tt0000004  6.4 93|
+--------------------+

val titlerdd = title.rdd

case class Title(titleId:String, averageRating:Float, numVotes:Int)

val titlefirst = titlerdd.first
val titleMapped = titlerdd.filter(e=> e!=titlefirst).map(e=> {
   val rowStr = e.getString(0)
   val splitted = rowStr.split("\t")
   val titleId = splitted(0).trim
   val averageRating = scala.util.Try(splitted(1).trim.toFloat) getOrElse(0.0f)
   val numVotes = scala.util.Try(splitted(2).trim.toInt) getOrElse(0)
   Title(titleId, averageRating, numVotes)
})

val titleMappedDF =  titleMapped.toDF

scala> titleMappedDF.limit(2).show
+---------+-------------+--------+
|  titleId|averageRating|numVotes|
+---------+-------------+--------+
|tt0000001|          5.8|    1350|
|tt0000002|          6.5|     157|
+---------+-------------+--------+


import org.apache.spark.sql.types._

val schema = StructType( StructField("title", StringType, true) ::StructField("averageRating", DoubleType, false) ::StructField("numVotes", IntegerType, false) :: Nil)

titleMappedDF.write.option("avroSchema", schema.toString).avro("/home/cloudera/workspace/movies/avrowithschema")

Spark DataFrame：以Avro編寫時如何指定架構

問題描述

2 個解決方案

解決方案1
2 已采納 2018-02-21 01:24:41

解決方案2
0 2018-02-21 01:58:31

Spark DataFrame：以Avro編寫時如何指定架構

問題描述

2 個解決方案

解決方案1 2 已采納 2018-02-21 01:24:41

解決方案2 0 2018-02-21 01:58:31

解決方案1
2 已采納 2018-02-21 01:24:41

解決方案2
0 2018-02-21 01:58:31