使用本地驱动器在Azure HDInsight上运行Spark程序

Question

我有一个要在Azure上运行并进行基准测试的程序。 我们已经在Amazon EC2上测试了该程序，并希望尝试尽可能紧密地镜像硬件。 在EC2上，我们正在访问的数据放在SSD上。 我们将数据放在Azure上的Blob中。

制作HDInsight群集时，我们是否只是将数据从Blob复制到群集，并将其存储在SSD上（前提是我们的群集需要使用SSD？）

Answer 1

是。 你会用

hadoop distcp <wasb://src-url> <hdfs://dest-url>

从hadoop命令行中，将数据从Blob存储移动到本地HDFS。

仅供参考-建议的体系结构是使用Blob存储/数据湖，而不是HDFS。

参考： https : //azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/