繁体   English   中英

如何从 Azure Data Lake Gen2 访问 XML 文件并将其转换为 Azure Databricks 中的数据帧?

[英]How to access XML file from Azure Data Lake Gen2 and transform it into data-frame in Azure Databricks?

我们需要访问位于 Azure Data Lake Gen2 中的 XML 文件并将其转换为如下所示的数据帧。

示例 XML 数据:

<SOAP-ENV:Envelope
   xmlns:SOAP-ENV="http://schemas.xmlsoap.org/soap/envelope/">

<SOAP-ENV:Body>
           <ns2:getProjectsResponse
               xmlns:ns2="http://www.logic8.com/eq/webservices/generated">
               <ns2:Project>
                   <ns2:fileName>P10001</ns2:fileName>
                   <ns2:alias>project1</ns2:alias>
               </ns2:Project>
               <ns2:Project>
                   <ns2:fileName>P10002</ns2:fileName>
                   <ns2:alias>project2</ns2:alias>
               </ns2:Project>
       <ns2:Project>
                   <ns2:fileName>P10003</ns2:fileName>
                   <ns2:alias>project3</ns2:alias>
               </ns2:Project>
           </ns2:getProjectsResponse>
       </SOAP-ENV:Body>
   </SOAP-ENV:Envelope>

预期数据帧输出:

在此处输入图片说明

谁可以帮我这个事。

首先,您需要学习从 Azure Data Lake Gen2 读取数据到 Azure databricks。

您可以从许多教程中学习:

  1. Databricks:从 Blob 存储导入数据 这篇博文是关于将数据从 Blob 存储导入到 Azure 数据块。
  2. Databricks Azure Blob 存储:本文介绍了如何通过使用 DBFS 或直接使用 API 挂载存储来访问 Azure Blob 存储。

其次,关于xml数据类型,您需要使用@Axel R在评论中提供的databricks spark-xml库

  1. 将 spark-xml 库导入您的工作区https://docs.databricks.com/user-guide/libraries.html#create-a-library (在 maven/spark 包部分中搜索 spark-xml 并导入它)
  2. 将库附加到您的集群https://docs.databricks.com/user-guide/libraries.html#attach-a-library-to-a-cluster
  3. 在您的笔记本中使用以下代码读取 xml 文件,其中“note”是 xml 文件的根。

xmldata = spark.read.format('xml').option("rootTag","note").load('dbfs:/mnt/mydatafolder/xmls/note.xml')

请参考: 如何读取 XML 文件 Azure Databricks Spark

结合这些文件,我想你可以找出你的问题。 我对 Azure 数据块了解不多,很抱歉无法为您测试。

希望这可以帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM