[英]Running Spark application using HDFS or S3
在我的spark應用程序中,我只想訪問一個大文件,並將計算分布在EC2的許多節點上。
最初,我的文件存儲在S3上。
對於我來說,使用S3的sc.textFile()
函數加載文件非常方便。
但是,我可以付出一些努力將數據加載到HDFS,然后從那里讀取數據。
我的問題是,HDFS的性能會更好嗎?
我的代碼涉及spark partitions(mapPartitions transforamtion)
,那么我最初的文件系統到底有什么關系呢?
顯然,與本地磁盤上的HDFS相比,使用S3時延遲更高,數據吞吐量也更低。
但這取決於您對數據的處理方式。 似乎大多數程序受CPU能力的限制要大於網絡吞吐量。 因此,您應該對從S3獲得的1Gbps吞吐量感到滿意。
無論如何,您都可以查看Aaron Davidson在Spark Summit 2015上的演講中的最新幻燈片。
http://www.slideshare.net/databricks/spark-summit-eu-2015-lessons-from-300-production-users/16
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.