[英]How to upload large files from HDFS to S3
从HDFS上传大文件(大于5GB)到S3时出现问题。 有没有一种方法可以将文件直接从HDFS直接上传到S3,而无需将其下载到本地文件系统并使用multipart?
要在HDFS和S3之间复制数据,应使用s3DistCp
。 s3DistCp
针对AWS进行了优化,并且可以跨S3存储桶并行高效地复制大量文件。
有关s3DistCp
用法,可以在这里参考文档: http : s3DistCp
s3DistCp
的代码可在此处获取: https : //github.com/libin/s3distcp
如果您使用的是Hadoop 2.7.1或更高版本,请使用s3a://文件系统与S3对话。 它支持分段上传,这是您在这里需要的。
更新:2016年9月
我应该补充一点,我们正在重新设计Hadoop 2.8的S3A输出流。 当前的内容会在Heap中缓冲分段上传,并在生成批量数据时以超过网络推送到s3的速度崩溃。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.