[英]reading a csv.gz file from sagemaker using pyspark kernel mode
我正在尝试读取 pyspark 中的压缩文件 csv。但我无法在 pyspark kernel 模式下读取 sagemaker。
当 kernel 是 conda-python3(在 sagemaker 中)时,我可以使用 pandas 读取相同的文件
我尝试了什么:
file1 = 's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')
错误信息:
An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:
如果我遗漏了什么,请告诉我
遇到错误:调用 104.csv 时出错。 : java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID:7FF77313;S3 扩展请求 ID:
S3 还有其他 Hadoop 连接器。 只有 S3A 由 Hadoop 项目本身积极维护。 Apache 的 Hadoop 的原始 s3:// 客户端。 Hadoop 中不再包含此内容。 Apache 的 Hadoop 的 s3n:文件系统客户端。 此连接器不再可用:用户必须迁移到较新的 s3a。
我附上了一份文件供您参考Apache S3 连接器
PySpark 根据他们提供的文档自动读取 gz 文件。 单击文档的Spark 编程指南。
file1 = 's3://testdata/output1.csv.gz'
rdd = sc.textFile(file1)
rdd.take(10)
加载文件 dataframe
df = spark.read.csv(file1)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.