繁体   English   中英

使用本地驱动器在Azure HDInsight上运行Spark程序

[英]Running Spark program on Azure HDInsight using local drive

我有一个要在Azure上运行并进行基准测试的程序。 我们已经在Amazon EC2上测试了该程序,并希望尝试尽可能紧密地镜像硬件。 在EC2上,我们正在访问的数据放在SSD上。 我们将数据放在Azure上的Blob中。

制作HDInsight群集时,我们是否只是将数据从Blob复制到群集,并将其存储在SSD上(前提是我们的群集需要使用SSD?)

是。 你会用

hadoop distcp <wasb://src-url> <hdfs://dest-url>

从hadoop命令行中,将数据从Blob存储移动到本地HDFS。

仅供参考-建议的体系结构是使用Blob存储/数据湖,而不是HDFS。

参考: https : //azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM