如何使用Spark数据帧将csv数据加载到配置单元中？

Question

我试图将数据从csv文件加载到Hive。 我正在使用spark的JAVA API来做到这一点。 我想知道如何使用spark数据框将数据加载到配置单元中。
这是我尝试使用JSON进行的操作：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SQLContext;
public class first {
public static void main (String[] args)
{
    String inputFileName = "samples/big.txt" ;
    String outputDirName = "output" ;

    SparkConf conf = new SparkConf().setAppName("org.sparkexample.WordCount").setMaster("local");
    JavaSparkContext context = new JavaSparkContext(conf);
    @SuppressWarnings("deprecation")
    SQLContext sc = new SQLContext(context);
    DataFrame input = sc.jsonFile(inputFileName);
    input.printSchema();
}
}

但是不知道如何使用csv进行制作。 我对databricks提供的Spark-csv有一些了解。
请让我知道我该怎么做。

Answer 1

在spark 2.xx上内置csv（无需软件包）尝试读取如下内容：

SparkSession spark = SparkSession
.builder()
.appName("org.sparkexample.WordCount")
.master("local[*]") .
.enableHiveSupport()
.getOrCreate();
DataFrame input = spark.read.csv(inputFileName)

您还可以添加选项，例如：

DataFrame input = spark.read.option("header","true").csv(inputFileName)

会将第一行视为标题，并相应地指定列名称

如何使用Spark数据帧将csv数据加载到配置单元中？

问题描述

1 个解决方案

解决方案1
0 已采纳 2017-02-16 09:37:26

如何使用Spark数据帧将csv数据加载到配置单元中？

问题描述

1 个解决方案

解决方案1 0 已采纳 2017-02-16 09:37:26

解决方案1
0 已采纳 2017-02-16 09:37:26