在不将文件移动到Azure Databricks文件系统中的情况下，最简单，最好的方法是在Azure数据湖Gen1中解压缩文件吗？

Question

在不将文件移动到Azure Databricks文件系统的情况下，在Azure数据湖Gen1中解压缩文件的最佳方法是什么？ 当前，我们使用Azure数据砖进行计算，并使用ADLS进行存储，但将数据移入DBFS受到限制。

已在DBFS中安装ADLS，并且不确定如何继续

Answer 1

不幸的是，在Databricks中不支持zip文件，原因是Hadoop不支持将zip文件作为压缩编解码器。 只要GZip，BZip2和其他受支持的压缩格式的文本文件可以配置为在Spark中自动解压缩，只要它具有正确的文件扩展名，您就必须执行其他步骤来读取zip文件。 Databricks文档中的示例使用操作系统级别（Ubuntu）上的解压缩在驱动程序节点上解压缩。

如果您的数据源无法在Spark支持的压缩编解码器中提供数据，则最好的方法是使用Azure Data Factory复制活动。 Azure数据工厂支持更多压缩编解码器，还支持zip。

源的类型属性定义如下所示：

"typeProperties": {
        "compression": {
            "type": "ZipDeflate",
            "level": "Optimal"
        },

您还可以使用Azure数据工厂通过Databricks活动来编排Databricks管道。

在不将文件移动到Azure Databricks文件系统中的情况下，最简单，最好的方法是在Azure数据湖Gen1中解压缩文件吗？

问题描述

1 个解决方案

解决方案1
0 2019-06-26 11:43:47

在不将文件移动到Azure Databricks文件系统中的情况下，最简单，最好的方法是在Azure数据湖Gen1中解压缩文件吗？

问题描述

1 个解决方案

解决方案1 0 2019-06-26 11:43:47

解决方案1
0 2019-06-26 11:43:47