使用spark dataFrame从HDFS加载数据

Question

我们可以在从HDFS读取数据时使用DataFrame。 我在HDFS中有一个制表符分隔数据。

我用Google搜索，但看到它可以与NoSQL数据一起使用

Answer 1

DataFrame当然不仅限于NoSQL数据源。 Parquet，ORC和JSON支持本机提供1.4至1.6.1; 使用spark-cvs包支持文本分隔文件。

如果你的tsv文件在HDFS / / demo / data中，那么下面的代码会将文件读入DataFrame

sqlContext.read.
  format("com.databricks.spark.csv").
  option("delimiter","\t").
  option("header","true").
  load("hdfs:///demo/data/tsvtest.tsv").show

要从spark-shell运行代码，请使用以下命令：

--packages com.databricks:spark-csv_2.10:1.4.0

在Spark 2.0中，本机支持csv，因此您应该可以执行以下操作：

spark.read.
  option("delimiter","\t").
  option("header","true").
  csv("hdfs:///demo/data/tsvtest.tsv").show

Answer 2

如果我理解正确，您基本上想要从HDFS读取数据，并且您希望这些数据自动转换为DataFrame。

如果是这种情况，我会推荐你这个 spark csv库。 看看这个，它有一个非常好的文档。

使用spark dataFrame从HDFS加载数据

问题描述

2 个解决方案

解决方案1
7 已采纳 2016-06-06 10:04:01

解决方案2
1 2016-06-05 05:34:13

使用spark dataFrame从HDFS加载数据

问题描述

2 个解决方案

解决方案1 7 已采纳 2016-06-06 10:04:01

解决方案2 1 2016-06-05 05:34:13

解决方案1
7 已采纳 2016-06-06 10:04:01

解决方案2
1 2016-06-05 05:34:13