从S3存储桶链接访问公共可用数据

Question

我正在尝试访问数据以复制此页面上的Redshift基准。 如果您向下滚动至“自己运行基准测试”部分，则作者说可以在以下S3存储桶中访问数据，将[]的项目替换为我们感兴趣的格式和数据大小：

s3n://big-data-benchmark/pavlo/[text|text-deflate|sequence|sequence-snappy]/[suffix]

基于以上内容，我尝试通过以下方式使用链接下载数据：

http://s3.amazonaws.com/big-data-benchmark/pavlo/text/tiny/

但这是行不通的。 有人可以提供有关如何获取这些数据集的指导吗？

Answer 1

如果我从s3n://删除“ n”， s3n://可以列出您的目录：

    $ aws s3 ls s3://big-data-benchmark/pavlo/text/tiny/
    PRE crawl/
    PRE rankings/
    PRE uservisits/
    2013-05-03 10:13:42          0 crawl_$folder$
    2013-05-09 07:23:17          0 rankings_$folder$
    2013-05-09 07:22:36          0 uservisits_$folder$

从那里我可以获得单独的路径，例如

s3://big-data-benchmark/pavlo/text/tiny/crawl/part-00000

其https URL为：

https://s3.amazonaws.com/big-data-benchmark/pavlo/text/tiny/crawl/part-00000

祝好运！

从S3存储桶链接访问公共可用数据

问题描述

1 个解决方案

解决方案1
2 已采纳 2015-09-29 01:04:37

从S3存储桶链接访问公共可用数据

问题描述

1 个解决方案

解决方案1 2 已采纳 2015-09-29 01:04:37

解决方案1
2 已采纳 2015-09-29 01:04:37