繁体   English   中英

使用 pyspark kernel 模式从 sagemaker 读取 csv.gz 文件

[英]reading a csv.gz file from sagemaker using pyspark kernel mode

我正在尝试读取 pyspark 中的压缩文件 csv。但我无法在 pyspark kernel 模式下读取 sagemaker。

当 kernel 是 conda-python3(在 sagemaker 中)时,我可以使用 pandas 读取相同的文件

我尝试了什么:

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')

错误信息:

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID: 

如果我遗漏了什么,请告诉我

遇到错误:调用 104.csv 时出错。 : java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID:7FF77313;S3 扩展请求 ID:

S3 还有其他 Hadoop 连接器。 只有 S3A 由 Hadoop 项目本身积极维护。 Apache 的 Hadoop 的原始 s3:// 客户端。 Hadoop 中不再包含此内容。 Apache 的 Hadoop 的 s3n:文件系统客户端。 此连接器不再可用:用户必须迁移到较新的 s3a。

我附上了一份文件供您参考Apache S3 连接器

PySpark 根据他们提供的文档自动读取 gz 文件。 单击文档的Spark 编程指南

file1 =  's3://testdata/output1.csv.gz'
rdd = sc.textFile(file1)
rdd.take(10)

加载文件 dataframe

df = spark.read.csv(file1) 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM