[英]How to trigger a pipeline in Azure Data Factory v2 or a Azure Databricks Notebook by a new file in Azure Data Lake Store gen1
[英]What is the easy and best method to unzip the files in Azure data lake Gen1 without moving the files to Azure Databricks file system?
在不将文件移动到Azure Databricks文件系统的情况下,在Azure数据湖Gen1中解压缩文件的最佳方法是什么? 当前,我们使用Azure数据砖进行计算,并使用ADLS进行存储,但将数据移入DBFS受到限制。
已在DBFS中安装ADLS,并且不确定如何继续
不幸的是,在Databricks中不支持zip文件,原因是Hadoop不支持将zip文件作为压缩编解码器。 只要GZip,BZip2和其他受支持的压缩格式的文本文件可以配置为在Spark中自动解压缩,只要它具有正确的文件扩展名,您就必须执行其他步骤来读取zip文件。 Databricks文档中的示例使用操作系统级别(Ubuntu)上的解压缩在驱动程序节点上解压缩。
如果您的数据源无法在Spark支持的压缩编解码器中提供数据,则最好的方法是使用Azure Data Factory复制活动。 Azure数据工厂支持更多压缩编解码器,还支持zip。
源的类型属性定义如下所示:
"typeProperties": {
"compression": {
"type": "ZipDeflate",
"level": "Optimal"
},
您还可以使用Azure数据工厂通过Databricks活动来编排Databricks管道。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.