使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

Question

i am trying to read a compressed csv file in pyspark. but i am unable to read in pyspark kernel mode in sagemaker.我正在尝试读取 pyspark 中的压缩文件 csv。但我无法在 pyspark kernel 模式下读取 sagemaker。

The same file i can read using pandas when the kernel is conda-python3 (in sagemaker)当 kernel 是 conda-python3（在 sagemaker 中）时，我可以使用 pandas 读取相同的文件

What I tried:我尝试了什么：

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')

Error message:错误信息：

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:

Kindly let me know if i am missing anything如果我遗漏了什么，请告诉我

Answer 1

An error was encountered: An error occurred while calling 104.csv.遇到错误：调用 104.csv 时出错。 : java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID: : java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID：7FF77313；S3 扩展请求 ID：

There are other Hadoop connectors to S3. S3 还有其他 Hadoop 连接器。 Only S3A is actively maintained by the Hadoop project itself.只有 S3A 由 Hadoop 项目本身积极维护。 Apache's Hadoop's original s3:// client. Apache 的 Hadoop 的原始 s3:// 客户端。 This is no longer included in Hadoop. Apache's Hadoop's s3n: filesystem client. Hadoop 中不再包含此内容。 Apache 的 Hadoop 的 s3n：文件系统客户端。 This connector is no longer available: users must migrate to the newer s3a.此连接器不再可用：用户必须迁移到较新的 s3a。

I have attached a document for your reference Apache S3 Connectors我附上了一份文件供您参考Apache S3 连接器

PySpark reads gz file automatically as per the document that they have provided. PySpark 根据他们提供的文档自动读取 gz 文件。 Click Spark Programming Guide for the document.单击文档的Spark 编程指南。

file1 =  's3://testdata/output1.csv.gz'
rdd = sc.textFile(file1)
rdd.take(10)

To load files in dataframe加载文件 dataframe

df = spark.read.csv(file1)

使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

问题描述

1 个解决方案

解决方案1
1 2020-10-07 10:16:53

使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

问题描述

1 个解决方案

解决方案1 1 2020-10-07 10:16:53

解决方案1
1 2020-10-07 10:16:53