從Apache Spark訪問公共可用的Amazon S3文件

Question

我有一個公共可用的Amazon s3資源（文本文件），並希望從spark訪問它。 這意味着 - 我沒有任何亞馬遜憑證 - 如果我只想下載它，它可以正常工作：

val bucket = "<my-bucket>"
val key = "<my-key>"

val client = new AmazonS3Client
val o = client.getObject(bucket, key)
val content = o.getObjectContent // <= can be read and used as input stream

但是，當我嘗試從spark上下文訪問相同的資源時

val conf = new SparkConf().setAppName("app").setMaster("local")
val sc = new SparkContext(conf)
val f = sc.textFile(s"s3a://$bucket/$key")
println(f.count())

我在stacktrace中收到以下錯誤：

Exception in thread "main" com.amazonaws.AmazonClientException: Unable to load AWS credentials from any provider in the chain
    at com.amazonaws.auth.AWSCredentialsProviderChain.getCredentials(AWSCredentialsProviderChain.java:117)
    at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3521)
    at com.amazonaws.services.s3.AmazonS3Client.headBucket(AmazonS3Client.java:1031)
    at com.amazonaws.services.s3.AmazonS3Client.doesBucketExist(AmazonS3Client.java:994)
    at org.apache.hadoop.fs.s3a.S3AFileSystem.initialize(S3AFileSystem.java:297)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2653)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:92)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2687)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2669)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:371)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:221)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:270)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:32)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1781)
    at org.apache.spark.rdd.RDD.count(RDD.scala:1099)
    at com.example.Main$.main(Main.scala:14)
    at com.example.Main.main(Main.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:497)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)

我不想提供任何AWS憑證 - 我只想匿名訪問資源（目前） - 如何實現這一目標？ 我可能需要使用像AnonymousAWSCredentialsProvider這樣的東西 - 但是如何將它放在spark或hadoop中呢？

PS我的build.sbt以防萬一

scalaVersion := "2.11.7"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % "1.4.1",
  "org.apache.hadoop" % "hadoop-aws" % "2.7.1"
)

更新：在我做了一些調查之后 - 我看到了它不起作用的原因。

首先，S3AFileSystem使用以下憑證順序創建AWS客戶端：

AWSCredentialsProviderChain credentials = new AWSCredentialsProviderChain(
    new BasicAWSCredentialsProvider(accessKey, secretKey),
    new InstanceProfileCredentialsProvider(),
    new AnonymousAWSCredentialsProvider()
);

“accessKey”和“secretKey”值取自spark conf實例（鍵必須為“fs.s3a.access.key”和“fs.s3a.secret.key”或org.apache.hadoop.fs.s3a.Constants .ACCESS_KEY和org.apache.hadoop.fs.s3a.Constants.SECRET_KEY常量，這樣更方便）。

第二 - 您可能會看到AnonymousAWSCredentialsProvider是第三個選項（最后優先級） - 可能出現的問題是什么？ 查看AnonymousAWSCredentials的實現：

public class AnonymousAWSCredentials implements AWSCredentials {

    public String getAWSAccessKeyId() {
        return null;
    }

    public String getAWSSecretKey() {
        return null;
    }
}

它只是為訪問密鑰和密鑰返回null。 聽起來很合理。 但請查看AWSCredentialsProviderChain：

AWSCredentials credentials = provider.getCredentials();

if (credentials.getAWSAccessKeyId() != null &&
    credentials.getAWSSecretKey() != null) {
    log.debug("Loading credentials from " + provider.toString());

    lastUsedProvider = provider;
    return credentials;
}

如果兩個鍵都為空，它不會選擇提供程序 - 這意味着匿名憑據不起作用。 看起來像aws-java-sdk-1.7.4中的一個bug。 我嘗試使用最新版本 - 但它與hadoop-aws-2.7.1不兼容。

還有其他想法嗎？

Answer 1

我個人從未訪問Spark的公共數據。 您可以嘗試使用虛擬憑據，或僅為此用途創建一個憑據。 直接在SparkConf對象上設置它們。

val sparkConf: SparkConf = ???
val accessKeyId: String = ???
val secretAccessKey: String = ???
sparkConf.set("spark.hadoop.fs.s3.awsAccessKeyId", accessKeyId)
sparkConf.set("spark.hadoop.fs.s3n.awsAccessKeyId", accessKeyId)
sparkConf.set("spark.hadoop.fs.s3.awsSecretAccessKey", secretAccessKey)
sparkConf.set("spark.hadoop.fs.s3n.awsSecretAccessKey", secretAccessKey)

作為替代方案，請閱讀DefaultAWSCredentialsProviderChain的文檔以查看查找憑據的位置。 列表（順序很重要）是：

環境變量 - AWS_ACCESS_KEY_ID和AWS_SECRET_KEY

Java系統屬性 - aws.accessKeyId和aws.secretKey

憑據配置文件位於所有AWS開發工具包和AWS CLI共享的默認位置（〜/ .aws / credentials）

通過Amazon EC2元數據服務提供的實例配置文件憑據

Answer 2

現在看來你現在可以使用aws.credentials.provider配置密鑰來使用org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider給出的匿名訪問，這正是匿名提供者的特殊情況。 但是，你需要一個比2.7更新的hadoop-aws，這意味着你還需要一個沒有捆綁的hadoop的火花安裝。

這是我如何做它colab：

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.1/spark-2.3.1-bin-without-hadoop.tgz
!tar xf spark-2.3.1-bin-without-hadoop.tgz
!pip install -q findspark
!pip install -q pyarrow

現在我們在側面安裝hadoop，並將hadoop classpath的輸出設置為SPARK_DIST_CLASSPATH ，因此spark可以看到它。

import os
!wget -q http://mirror.nbtelecom.com.br/apache/hadoop/common/hadoop-2.8.4/hadoop-2.8.4.tar.gz
!tar xf hadoop-2.8.4.tar.gz
os.environ['HADOOP_HOME']= '/content/hadoop-2.8.4'
os.environ["SPARK_DIST_CLASSPATH"] = "/content/hadoop-2.8.4/etc/hadoop:/content/hadoop-2.8.4/share/hadoop/common/lib/*:/content/hadoop-2.8.4/share/hadoop/common/*:/content/hadoop-2.8.4/share/hadoop/hdfs:/content/hadoop-2.8.4/share/hadoop/hdfs/lib/*:/content/hadoop-2.8.4/share/hadoop/hdfs/*:/content/hadoop-2.8.4/share/hadoop/yarn/lib/*:/content/hadoop-2.8.4/share/hadoop/yarn/*:/content/hadoop-2.8.4/share/hadoop/mapreduce/lib/*:/content/hadoop-2.8.4/share/hadoop/mapreduce/*:/content/hadoop-2.8.4/contrib/capacity-scheduler/*.jar"

然后我們確實喜歡https://mikestaszel.com/2018/03/07/apache-spark-on-google-colaboratory/ ，但添加了s3a和匿名閱讀支持，這就是問題所在。

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.3.1-bin-without-hadoop"
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.6,org.apache.hadoop:hadoop-aws:2.8.4 --conf spark.sql.execution.arrow.enabled=true --conf spark.hadoop.fs.s3a.aws.credentials.provider=org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider pyspark-shell'

最后我們可以創建會話。

import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

Answer 3

這對我有所幫助：

val session = SparkSession.builder()
  .appName("App")
  .master("local[*]") 
  .config("fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider")
  .getOrCreate()

val df = session.read.csv(filesFromS3:_*)

版本：

"org.apache.spark" %% "spark-sql" % "2.4.0",
"org.apache.hadoop" % "hadoop-aws" % "2.8.5",

文檔： https ： //hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html#Authentication_properties

從Apache Spark訪問公共可用的Amazon S3文件

問題描述

3 個解決方案

解決方案1
3 2015-07-18 22:45:41

解決方案2
1 2018-07-09 05:32:52

解決方案3
0 2018-12-17 09:40:35

從Apache Spark訪問公共可用的Amazon S3文件

問題描述

3 個解決方案

解決方案1 3 2015-07-18 22:45:41

解決方案2 1 2018-07-09 05:32:52

解決方案3 0 2018-12-17 09:40:35

解決方案1
3 2015-07-18 22:45:41

解決方案2
1 2018-07-09 05:32:52

解決方案3
0 2018-12-17 09:40:35