用Apache Spark解析带有模式的文件

Question

下面是我的spark / SCALA程序，用于读取我的源文件。 （CSV文件）

val csv = spark.read
  .format("com.databricks.spark.csv")
  .option("header", "true") //reading the headers
 // .option("mode", "DROPMALFORMED")
  .option("inferSchema", "true")

  .load("C:\\TestFiles\\SAP_ENT_INVBAL.csv"); //.csv("csv/file/path") //spark 2.0 api


csv.show()



csv.printSchema()
csv.show()

}

输出包含文件头，但是对于我的处理，我需要不同的命名约定而不是文件头。

我尝试了几种选择，效果很好。

重命名数据框列
使用add（StructField函数

但是我想使我的代码通用。 只需在读取文件时传递模式文件，然后根据模式文件创建带有列的数据框。

请帮助解决此问题。

Answer 1

这是spark-csv文档中有关如何指定自定义架构的示例-

您可以在读取数据时手动指定架构：

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}

val sqlContext = new SQLContext(sc)       
val customSchema = StructType(Array(
    StructField("year", IntegerType, true),
    StructField("make", StringType, true),
    StructField("model", StringType, true),
    StructField("comment", StringType, true),
    StructField("blank", StringType, true)))

val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .schema(customSchema)
    .load("cars.csv")

Answer 2

如果只需要重命名列，则可以使用toDF方法， toDF传递列的新名称，例如

val csv = spark.read.option("header", "true")
  .csv("C:\\TestFiles\\SAP_ENT_INVBAL.csv")
  .toDF("newColAName", "newColBName", "newColCName")

用Apache Spark解析带有模式的文件

问题描述

2 个解决方案

解决方案1
0 已采纳 2017-04-15 13:23:23

解决方案2
0 2017-04-15 13:50:08

用Apache Spark解析带有模式的文件

问题描述

2 个解决方案

解决方案1 0 已采纳 2017-04-15 13:23:23

解决方案2 0 2017-04-15 13:50:08

解决方案1
0 已采纳 2017-04-15 13:23:23

解决方案2
0 2017-04-15 13:50:08