繁体 English 中英

在Azure上的HDInsights群集上使用Data Lake或Blob

[英]Use Data Lake or Blob on HDInsights cluster on Azure

原文 2017-11-28 10:15:15 8 3 azure/ hadoop/ hdinsight/ azure-data-lake/ azure-blob-storage

在Azure中创建HDInsights Hadoop群集时，有两个存储选项。 Azure数据湖存储（ADLS）或Azure Blob存储。

这两个选项之间的真正区别是什么？它们如何影响性能？

我发现此页面https://docs.microsoft.com/zh-cn/azure/data-lake-store/data-lake-store-comparison-with-blob-storage但它不是很具体，仅使用非常通用诸如“ ADLS针对分析进行了优化”之类的术语。

这是否意味着它更适合存储HDInsights文件系统？ 如果ADLS确实更快，那为什么不也将其用于非分析数据呢？

3 个解决方案

根据本文档，Azure存储帐户最多可以容纳4.75 TB，尽管单个Blob（或从HDInsight角度来看的文件）最多只能容纳195 GB。 Azure Data Lake Store可以动态增长以容纳数万亿个文件，单个文件大于PB。 有关更多信息，请参阅了解blob和Data Lake Store 。

另外，请查看Azure存储的好处和使用Data Lake Store以获得更多详细信息和比较。

希望这可以帮助。

除了Ashok的答案：与Azure存储相比，ADLS当前仅在少数地区可用。 因此，如果您需要在特定区域中使用HDInsight帐户，则应确保存储在同一区域中。

ADLS相对于Azure存储的另一个好处是其在文件/文件夹级别的基于POSIX的安全模型，该模型使用AAD安全主体而不是共享访问密钥。

您可能不希望对非分析数据使用ADLS的原因主要是成本。 由于某些附加功能，它目前更昂贵。

除其他答案外，无法在使用Data Lake作为主要存储的HDInsights群集上使用Spark Data Factory活动。 如此处所示，此限制适用于ADFv1和v2： https ：//docs.microsoft.com/zh-cn/azure/data-factory/v1/data-factory-spark和https://docs.microsoft.com/ zh-CN / azure / data-factory / transform-data-using-spark

在 HDInsights 群集中使用 Spark 未将文件保存在 Azure Blob 中

[英]Files not getting saved in Azure blob using Spark in HDInsights cluster

如何使用Sqoop将数据从Oracle DB成功传输到Microsoft Azure HDInsights中的Hadoop群集

[英]How to use Sqoop to successfully transfer data from an Oracle DB to an Hadoop cluster in Microsoft Azure HDInsights

Azure HDInsights Spark 群集安装外部库

[英]Azure HDInsights Spark Cluster Install External Libraries

我们可以使用 blob binder 将文件上传到 Azure 数据湖 gen 2

[英]Can we use blob binders to upload file to Azure data lake gen 2

如何将Azure Blob文件复制到Azure Data Lake Analytics

[英]How to copy azure blob files to azure data lake analytics

Azure Data Lake Store 上的公共数据集与 Data Lake Analytics 一起使用

[英]Public Datasets on Azure Data Lake Store to use with Data Lake Analytics

数据湖 Blob 存储

[英]Data Lake Blob Storage

无法在 csharp 中的 Azure Data Lake Gen2 中设置 blob 的 ContentType

[英]Cannot set the ContentType of a blob in Azure Data Lake Gen2 in csharp

如何使用Data Factory在HDInsights群集中设置自定义Spark参数

[英]How to setup custom Spark parameter in HDInsights cluster with Data Factory

HDInsight Spark群集-无法连接到Azure Data Lake Store

[英]HDInsight Spark cluster - can't connect to Azure Data Lake Store

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 HDInsights 群集中使用 Spark 未将文件保存在 Azure Blob 中如何使用Sqoop将数据从Oracle DB成功传输到Microsoft Azure HDInsights中的Hadoop群集 Azure HDInsights Spark 群集安装外部库我们可以使用 blob binder 将文件上传到 Azure 数据湖 gen 2 如何将Azure Blob文件复制到Azure Data Lake Analytics Azure Data Lake Store 上的公共数据集与 Data Lake Analytics 一起使用数据湖 Blob 存储无法在 csharp 中的 Azure Data Lake Gen2 中设置 blob 的 ContentType 如何使用Data Factory在HDInsights群集中设置自定义Spark参数 HDInsight Spark群集-无法连接到Azure Data Lake Store

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM