繁体   English   中英

来自多个文件的Azure Databricks Spark表

[英]Azure Databricks Spark table from multiple files

我已经能够像这样在单个XML文件上创建表

CREATE TABLE mytab
USING com.databricks.spark.xml
OPTIONS (
  path "/mnt/srcdir/myxmlfile.xml",
  rowTag "xmltag")

但是我在目录中有多个XML文件,我想将它们全部加载到单个表“ mytab”中。 我尝试了以下失败

CREATE TABLE mytab
USING com.databricks.spark.xml
OPTIONS (
  path "/mnt/srcdir/",
  rowTag "xmltag")

以下是异常堆栈跟踪的摘要

SQL语句中的错误:SparkException:作业由于阶段失败而中止:阶段9中的任务9失败4次,最近一次失败:阶段0.0中的任务9.3丢失(TID 17,10.139.64.4,执行程序0):java.io.FileNotFoundException :/是目录而不是文件。
在shaded.databricks.org.apache.hadoop.fs.azure.NativeAzureFileSystem.open(NativeAzureFileSystem.java:2511)...

请帮忙

Spark在目录级别工作,您可以选择要从表中读取的目录。 目录中的所有文件应具有相同的类型,它将基于该目录创建一个表。

CREATE TABLE mytab
USING com.databricks.spark.xml
OPTIONS (
  path "/mnt/srcdir/",
  rowTag "xmltag")

请注意:“ xmltag”区分大小写。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM