繁体   English   中英

在Azure上的HDInsights群集上使用Data Lake或Blob

[英]Use Data Lake or Blob on HDInsights cluster on Azure

在Azure中创建HDInsights Hadoop群集时,有两个存储选项。 Azure数据湖存储(ADLS)或Azure Blob存储。

这两个选项之间的真正区别是什么?它们如何影响性能?

我发现此页面https://docs.microsoft.com/zh-cn/azure/data-lake-store/data-lake-store-comparison-with-blob-storage但它不是很具体,仅使用非常通用诸如“ ADLS针对分析进行了优化”之类的术语。

这是否意味着它更适合存储HDInsights文件系统? 如果ADLS确实更快,那为什么不也将其用于非分析数据呢?

根据本文档 ,Azure存储帐户最多可以容纳4.75 TB,尽管单个Blob(或从HDInsight角度来看的文件)最多只能容纳195 GB。 Azure Data Lake Store可以动态增长以容纳数万亿个文件,单个文件大于PB。 有关更多信息,请参阅了解blobData Lake Store

另外,请查看Azure存储的好处使用Data Lake Store以获得更多详细信息和比较。

希望这可以帮助。

除了Ashok的答案:与Azure存储相比,ADLS当前仅在少数地区可用。 因此,如果您需要在特定区域中使用HDInsight帐户,则应确保存储在同一区域中。

ADLS相对于Azure存储的另一个好处是其在文件/文件夹级别的基于POSIX的安全模型,该模型使用AAD安全主体而不是共享访问密钥。

您可能不希望对非分析数据使用ADLS的原因主要是成本。 由于某些附加功能,它目前更昂贵。

除其他答案外,无法在使用Data Lake作为主要存储的HDInsights群集上使用Spark Data Factory活动。 如此处所示,此限制适用于ADFv1和v2: https ://docs.microsoft.com/zh-cn/azure/data-factory/v1/data-factory-spark和https://docs.microsoft.com/ zh-CN / azure / data-factory / transform-data-using-spark

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM