繁体   English   中英

AWS S3 Postgres 扩展`错误:编码“UTF8”的字节序列无效:0x8b`

[英]AWS S3 Postgres Extension `ERROR: invalid byte sequence for encoding "UTF8": 0x8b`

  1. 使用 GZip 压缩将 Spark DataFrame 保存到 S3 为 CSV
     ( df.write.option("header", True).option("encoding", "UTF-8").mode(mode).csv(s3_uri, compression=compression))
  2. 将标签Content-Encoding设置为gzip 在此处输入图像描述
  3. 执行 postgres 扩展以从 S3 COPY到表
    SELECT aws_s3.table_import_from_s3( 'public.mytable1', '', '(format csv, header true)', aws_commons.create_s3_uri('my-bucket-1', 'my/object/key/part-00000-...-1-c000.csv', 'us-east-1') );

AWS 文档给出了设置 object 元数据的错误说明。 如果您手动设置元数据,它只会将您的标签视为任意字符串,而不是将 Content-Encoding 识别为保留关键字。

默认的元数据行为会导致错误: 在此处输入图像描述

强制系统定义的标签(而不是默认的用户定义的标签): 在此处输入图像描述

在此浪费了数小时和 4 个人的时间。 已向 AWS 文档团队提交反馈。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM