從S3存儲桶下載數百萬個文件

Question

我在S3存儲桶的不同文件夾中有數百萬個文件。

文件很小。 我希望下載名為VER1文件夾下的所有文件。 文件夾VER1包含許多子文件夾，我希望下載VER1所有子文件夾下的所有百萬個文件。

（例如VER1 - > sub1 - > file1.txt ， VER1 - > sub1 - > subsub1 - > file2.text等）

下載所有文件的最快方法是什么？

使用s3 cp嗎？ s3 sync ？

有沒有辦法並行下載位於該文件夾下的所有文件？

Answer 1

使用AWS命令行界面（CLI）：

aws s3 sync s3://bucket/VER1 [name-of-local-directory]

根據我的經驗，它將並行下載，但不一定會使用全部帶寬，因為每個對象都有很多開銷。 （因為開銷較小，所以對於大型對象而言效率更高。）

這可能是aws s3 sync可能有大量的文件的問題。 您必須嘗試一下它是否有效。

如果您確實想要完整的性能，則可以編寫自己的代碼，這些代碼可以大量並行下載，但是節省時間可能會浪費在編寫和測試這樣的程序上。

另一個選擇是使用aws s3 sync下載到Amazon EC2實例，然后壓縮文件並僅下載壓縮文件。 這將減少帶寬需求。