簡體   English   中英

使用HDFS或S3運行Spark應用程序

[英]Running Spark application using HDFS or S3

在我的spark應用程序中,我只想訪問一個大文件,並將計算分布在EC2的許多節點上。

最初,我的文件存儲在S3上。

對於我來說,使用S3的sc.textFile()函數加載文件非常方便。

但是,我可以付出一些努力將數據加載到HDFS,然后從那里讀取數據。

我的問題是,HDFS的性能會更好嗎?

我的代碼涉及spark partitions(mapPartitions transforamtion) ,那么我最初的文件系統到底有什么關系呢?

顯然,與本地磁盤上的HDFS相比,使用S3時延遲更高,數據吞吐量也更低。

但這取決於您對數據的處理方式。 似乎大多數程序受CPU能力的限制要大於網絡吞吐量。 因此,您應該對從S3獲得的1Gbps吞吐量感到滿意。

無論如何,您都可以查看Aaron Davidson在Spark Summit 2015上演講中的最新幻燈片。

http://www.slideshare.net/databricks/spark-summit-eu-2015-lessons-from-300-production-users/16

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM