簡體 English 中英

使用HDFS或S3運行Spark應用程序

[英]Running Spark application using HDFS or S3

原文 2015-11-07 21:57:14 1 1 amazon-s3/ apache-spark/ hdfs

在我的spark應用程序中，我只想訪問一個大文件，並將計算分布在EC2的許多節點上。

最初，我的文件存儲在S3上。

對於我來說，使用S3的sc.textFile()函數加載文件非常方便。

但是，我可以付出一些努力將數據加載到HDFS，然后從那里讀取數據。

我的問題是，HDFS的性能會更好嗎？

我的代碼涉及spark partitions(mapPartitions transforamtion) ，那么我最初的文件系統到底有什么關系呢？

顯然，與本地磁盤上的HDFS相比，使用S3時延遲更高，數據吞吐量也更低。

但這取決於您對數據的處理方式。 似乎大多數程序受CPU能力的限制要大於網絡吞吐量。 因此，您應該對從S3獲得的1Gbps吞吐量感到滿意。

無論如何，您都可以查看Aaron Davidson在Spark Summit 2015上的演講中的最新幻燈片。

[英]Copy from S3 TO HDFS Using Spark

[英]Any AWS S3 API to move files from HDFS on Amazon EMR to Amazon S3 from spark application

[英]Can 2 Spark job use a single HDFS/S3 storage simultaneously?

[英]How rename S3 files not HDFS in spark scala

[英]Read edge DB files from HDFS or S3 in Spark

[英]Using S3 (Frankfurt) with Spark

[英]Running EMR Spark With Multiple S3 Accounts

[英]Import data to Hdfs from AWS S3 using Sqoop

[英]distcp hdfs to s3 fails

[英]Distcp from S3 to HDFS

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用Spark從S3復制到HDFS 任何用於將文件從 Amazon EMR 上的 HDFS 移動到 Amazon S3 的 AWS S3 API 從 Spark 應用程序 2 個 Spark 作業可以同時使用單個 HDFS/S3 存儲嗎？如何在Spark Scala中重命名S3文件而不是HDFS 從 Spark 中的 HDFS 或 S3 讀取邊緣數據庫文件在Spark上使用S3（Frankfurt）使用多個 S3 帳戶運行 EMR Spark 使用Sqoop將數據從AWS S3導入到HDFS distcp hdfs到s3失敗 Distcp 從 S3 到 HDFS

相關標簽