来自多个文件的Azure Databricks Spark表

Question

我已经能够像这样在单个XML文件上创建表

CREATE TABLE mytab
USING com.databricks.spark.xml
OPTIONS (
  path "/mnt/srcdir/myxmlfile.xml",
  rowTag "xmltag")

但是我在目录中有多个XML文件，我想将它们全部加载到单个表“ mytab”中。 我尝试了以下失败

CREATE TABLE mytab
USING com.databricks.spark.xml
OPTIONS (
  path "/mnt/srcdir/",
  rowTag "xmltag")

以下是异常堆栈跟踪的摘要

SQL语句中的错误：SparkException：作业由于阶段失败而中止：阶段9中的任务9失败4次，最近一次失败：阶段0.0中的任务9.3丢失（TID 17，10.139.64.4，执行程序0）：java.io.FileNotFoundException ：/是目录而不是文件。
在shaded.databricks.org.apache.hadoop.fs.azure.NativeAzureFileSystem.open（NativeAzureFileSystem.java:2511）...

请帮忙

Answer 1

Spark在目录级别工作，您可以选择要从表中读取的目录。 目录中的所有文件应具有相同的类型，它将基于该目录创建一个表。

CREATE TABLE mytab
USING com.databricks.spark.xml
OPTIONS (
  path "/mnt/srcdir/",
  rowTag "xmltag")

请注意：“ xmltag”区分大小写。

来自多个文件的Azure Databricks Spark表

问题描述

1 个解决方案

解决方案1
0 2018-04-01 02:01:48

来自多个文件的Azure Databricks Spark表

问题描述

1 个解决方案

解决方案1 0 2018-04-01 02:01:48

解决方案1
0 2018-04-01 02:01:48