使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

Question

我正在尝试读取 pyspark 中的压缩文件 csv。但我无法在 pyspark kernel 模式下读取 sagemaker。

当 kernel 是 conda-python3（在 sagemaker 中）时，我可以使用 pandas 读取相同的文件

我尝试了什么：

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')

错误信息：

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:

如果我遗漏了什么，请告诉我

Answer 1

遇到错误：调用 104.csv 时出错。 : java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID：7FF77313；S3 扩展请求 ID：

S3 还有其他 Hadoop 连接器。 只有 S3A 由 Hadoop 项目本身积极维护。 Apache 的 Hadoop 的原始 s3:// 客户端。 Hadoop 中不再包含此内容。 Apache 的 Hadoop 的 s3n：文件系统客户端。 此连接器不再可用：用户必须迁移到较新的 s3a。

我附上了一份文件供您参考Apache S3 连接器

PySpark 根据他们提供的文档自动读取 gz 文件。 单击文档的Spark 编程指南。

file1 =  's3://testdata/output1.csv.gz'
rdd = sc.textFile(file1)
rdd.take(10)

加载文件 dataframe

df = spark.read.csv(file1)

使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

问题描述

1 个解决方案

解决方案1
1 2020-10-07 10:16:53

使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

问题描述

1 个解决方案

解决方案1 1 2020-10-07 10:16:53

解决方案1
1 2020-10-07 10:16:53