繁体   English   中英

将数据从S3迁移到Google云存储

[英]Migrating data from S3 to Google cloud storage

我需要将大量文件(大约数十兆字节)从Amazon S3移动到Google Cloud Storage。 S3中的文件均小于500mb。

到目前为止,我已经尝试将gsutil cp与并行选项(-m)结合使用,以直接将S3用作源,将GS直接用作目标。 即使调整多处理和多线程参数,我也无法实现超过30mb / s的性能。

我现在正在考虑的是:

  • 使用distcp将数据从S3批量加载到hdfs,然后找到一种将所有数据distcp-分配到google存储中的方法(据我所知不支持),或者:

  • 设置一个hadoop集群,其中每个节点运行一个gsutil cp并行作业,并将S3和GS分别作为src和dst

如果支持第一个选项,我将非常感谢有关如何执行此操作的详细信息。 但是,似乎我必须找出如何做第二个。 我不确定如何走这条路,因为我需要跟踪许多节点上的gsutil可恢复传输功能,而且我通常没有经验来运行这种hadoop工作。

我们将不胜感激如何采用这些途径之一(或者我从未想到过的简单方法)。

您可以设置一个Google Compute Engine (GCE)帐户,然后从GCE运行gsutil来导入数据。 您可以启动多个GCE实例,每个实例都导入数据的子集。 这是我们在Google I / O 2013上的演讲中涵盖的技术之一,该演讲称为“ 将大数据集导入Google Cloud Storage”

如果使用这种方法,您gsutil cp -L要做的另一件事是使用gsutil cp -L-n选项。 -L创建一个清单,该清单记录有关已传输内容的详细信息,并且-n允许您避免重新复制已复制的文件(以防您从头开始复制,例如在中断之后)。 我建议您更新到gsutil版本3.30(将在下周左右发布),这将改善-L选项在这种复制情况下的工作方式。

Google云存储团队的Mike Schwartz

Google最近发布了Cloud Storage Transfer Service,该服务旨在将大量数据从S3传输到GCS: https//cloud.google.com/storage/transfer/getting-started

(我知道这个答案对于原始问题来说有点晚了,但是它可能会帮助以后遇到相同问题的访客。)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM