繁体   English   中英

无法从Hadoop访问公共S3存储桶

[英]Can't access a public S3 bucket from Hadoop

我正在使用Hadoop处理Google图书ngram,它们作为Hadoop序列文件存储在Amazon S3中。

Hadoop只需通过在文件名上指定s3://或s3n://协议,就可以读取S3(使用S3存储桶作为虚拟“文件系统”)。

不幸的是,它要求您设置AWS访问和密钥。 由于我想读取的存储桶是公共的,因此我没有任何可使用的钥匙。 如果使用自己的密钥,则无法从ngrams存储桶中读取(因为它不属于我的帐户)。

我如何才能使用Hadoop中存储在公共S3存储桶中的文件,而无需自己重新托管文件(这将变得非常昂贵,因为有几TB的数据)?

如果数据是公开的,则您将不需要AWS访问或密钥,因为您将不会使用s3n://变体。 相反,您将使用公共URL变体,该变体将以http://*.s3.amazonaws.com/*

如果公共URL不可用,您可以尝试仅为每个AWS访问和密钥传递一个空白字符串,然后看看会发生什么

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM