繁体   English   中英

从S3存储桶链接访问公共可用数据

[英]Access publicly available data from S3 bucket link

我正在尝试访问数据以复制页面上的Redshift基准。 如果您向下滚动至“自己运行基准测试”部分,则作者说可以在以下S3存储桶中访问数据,将[]的项目替换为我们感兴趣的格式和数据大小:

s3n://big-data-benchmark/pavlo/[text|text-deflate|sequence|sequence-snappy]/[suffix]

基于以上内容,我尝试通过以下方式使用链接下载数据:

http://s3.amazonaws.com/big-data-benchmark/pavlo/text/tiny/

但这是行不通的。 有人可以提供有关如何获取这些数据集的指导吗?

如果我从s3n://删除“ n”, s3n://可以列出您的目录:

    $ aws s3 ls s3://big-data-benchmark/pavlo/text/tiny/
    PRE crawl/
    PRE rankings/
    PRE uservisits/
    2013-05-03 10:13:42          0 crawl_$folder$
    2013-05-09 07:23:17          0 rankings_$folder$
    2013-05-09 07:22:36          0 uservisits_$folder$

从那里我可以获得单独的路径,例如

s3://big-data-benchmark/pavlo/text/tiny/crawl/part-00000

其https URL为:

https://s3.amazonaws.com/big-data-benchmark/pavlo/text/tiny/crawl/part-00000

祝好运!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM