簡體   English   中英

如何以編程方式有效地將文件從HDFS復制到S3

[英]How to copy files from HDFS to S3 effectively programatically

我的hadoop作業在HDFS上生成大量文件,我想編寫一個單獨的線程,將這些文件從HDFS復制到S3。

任何人都可以指向任何處理它的Java API。

謝謝

“支持S3塊文件系統已添加到Hadoop 0.11.0中的$ {HADOOP_HOME} / bin / hadoop distcp工具中(參見HADOOP-862).distcp工具設置MapReduce作業來運行副本。使用distcp,a許多成員的集群可以快速復制大量數據。映射任務的數量是通過計算源中文件的數量來計算的:即每個映射任務負責復制一個文件。源和目標可以指不同的文件系統類型。例如,source可能引用本地文件系統或以S3為目標的hdfs。“

在這里查看運行批量復制進出S3 http://wiki.apache.org/hadoop/AmazonS3

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM