繁体   English   中英

如何将大文件从HDFS上传到S3

[英]How to upload large files from HDFS to S3

从HDFS上传大文件(大于5GB)到S3时出现问题。 有没有一种方法可以将文件直接从HDFS直接上传到S3,而无需将其下载到本地文件系统并使用multipart?

要在HDFS和S3之间复制数据,应使用s3DistCp s3DistCp针对AWS进行了优化,并且可以跨S3存储桶并行高效地复制大量文件。

有关s3DistCp用法,可以在这里参考文档: http : s3DistCp

s3DistCp的代码可在此处获取: https : //github.com/libin/s3distcp

如果您使用的是Hadoop 2.7.1或更高版本,请使用s3a://文件系统与S3对话。 它支持分段上传,这是您在这里需要的。

更新:2016年9月

我应该补充一点,我们正在重新设计Hadoop 2.8的S3A输出流。 当前的内容会在Heap中缓冲分段上传,并在生成批量数据时以超过网络推送到s3的速度崩溃。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM