[英]python boto3 multipart upload to buckets in different zones
好的,您似乎对某些术语感到困惑。 让我们定义一些术语:
现在,回答您的问题:
一个对象仅存在于一个存储桶中。 无法在存储桶之间分割对象。 (而且,由于存储桶在区域中不存在,因此也无法在区域之间进行拆分。)
如果希望在区域之间复制对象,请使用跨区域复制 。 这将自动将对象从一个存储桶复制到另一个存储桶。
Amazon S3中对象的最大大小为5TB,但是您确实真的不想变大。 大多数大数据应用程序使用许多较小的文件 (例如5MB)。 这允许跨多个进程并行加载 ,这通常在Hadoop中完成。 它也允许通过简单地添加文件而不是更新现有文件来添加新数据。 (顺便说一句,您不能追加到S3对象,只能替换它。)
将数据上传到S3的最简单方法是使用AWS命令行界面(CLI) 。
多部分上传仅仅是通过将单个对象拆分为多个部分,上传每个部分然后将它们缝合在一起的方式来上传单个对象。 一旦实际对象被上传,上传的方法就与它们无关。
您应该始终将数据存储在处理位置附近。 因此,如果需要在多个区域中进行处理,则仅在区域之间复制数据。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.