AWS S3 Postgres 扩展`错误：编码“UTF8”的字节序列无效：0x8b`

Question

使用 GZip 压缩将 Spark DataFrame 保存到 S3 为 CSV

 ( df.write.option("header", True).option("encoding", "UTF-8").mode(mode).csv(s3_uri, compression=compression))

将标签Content-Encoding设置为gzip

执行 postgres 扩展以从 S3 COPY到表

SELECT aws_s3.table_import_from_s3( 'public.mytable1', '', '(format csv, header true)', aws_commons.create_s3_uri('my-bucket-1', 'my/object/key/part-00000-...-1-c000.csv', 'us-east-1') );

Answer 1

AWS 文档给出了设置 object 元数据的错误说明。 如果您手动设置元数据，它只会将您的标签视为任意字符串，而不是将 Content-Encoding 识别为保留关键字。

默认的元数据行为会导致错误：

强制系统定义的标签（而不是默认的用户定义的标签）：

在此浪费了数小时和 4 个人的时间。 已向 AWS 文档团队提交反馈。

AWS S3 Postgres 扩展`错误：编码“UTF8”的字节序列无效：0x8b`

问题描述

1 个解决方案

解决方案1
2 2022-11-14 23:29:59

AWS S3 Postgres 扩展`错误：编码“UTF8”的字节序列无效：0x8b`

问题描述

1 个解决方案

解决方案1 2 2022-11-14 23:29:59

解决方案1
2 2022-11-14 23:29:59