![](/img/trans.png)
[英]Azure Data Lake Storage Gen2 create directory if not exists in python
[英]How to access XML file from Azure Data Lake Gen2 and transform it into data-frame in Azure Databricks?
我们需要访问位于 Azure Data Lake Gen2 中的 XML 文件并将其转换为如下所示的数据帧。
示例 XML 数据:
<SOAP-ENV:Envelope
xmlns:SOAP-ENV="http://schemas.xmlsoap.org/soap/envelope/">
<SOAP-ENV:Body>
<ns2:getProjectsResponse
xmlns:ns2="http://www.logic8.com/eq/webservices/generated">
<ns2:Project>
<ns2:fileName>P10001</ns2:fileName>
<ns2:alias>project1</ns2:alias>
</ns2:Project>
<ns2:Project>
<ns2:fileName>P10002</ns2:fileName>
<ns2:alias>project2</ns2:alias>
</ns2:Project>
<ns2:Project>
<ns2:fileName>P10003</ns2:fileName>
<ns2:alias>project3</ns2:alias>
</ns2:Project>
</ns2:getProjectsResponse>
</SOAP-ENV:Body>
</SOAP-ENV:Envelope>
预期数据帧输出:
谁可以帮我这个事。
首先,您需要学习从 Azure Data Lake Gen2 读取数据到 Azure databricks。
您可以从许多教程中学习:
其次,关于xml数据类型,您需要使用@Axel R在评论中提供的databricks spark-xml库。
xmldata = spark.read.format('xml').option("rootTag","note").load('dbfs:/mnt/mydatafolder/xmls/note.xml')
请参考: 如何读取 XML 文件 Azure Databricks Spark 。
结合这些文件,我想你可以找出你的问题。 我对 Azure 数据块了解不多,很抱歉无法为您测试。
希望这可以帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.