繁体 English 中英

将数据加载到 Amazon Redshift Spectrum 时删除双引号 "

[英]Remove double quotes " while loading data to Amazon Redshift Spectrum

原文 2017-06-28 04:45:26 2 2 amazon-web-services/ amazon-redshift/ amazon-redshift-spectrum

我想将数据加载到 amazon redshift 外部表。 数据采用 CSV 格式并带有引号。 我们是否有类似 REMOVEQUOTES 的东西，我们在 redshift 外部表的复制命令中拥有它。 还有哪些不同的选项可以在外部表中加载固定长度数据。

2 个解决方案

要创建外部 Spectrum 表，您应该参考 Athena 提供的CREATE TABLE语法。 要加载由双引号转义的 CSV，您应该使用以下几行作为ROW FORMAT

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
    'separatorChar' = ',',
    'quoteChar' = '\"',
    'escapeChar' = '\\'
)

对于固定长度的文件，您应该使用 RegexSerDe。 在这种情况下， CREATE TABLE语句的相关部分将如下所示（假设 3 个字段的长度为 100）。

ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES ("input.regex" = "(.{100})(.{100})(.{100})")

您还可以使用正则表达式来解析由多个字符包围的数据。 示例（在 CSV 文件中，字段被三重双引号 (""") 包围）：

ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.AbstractSerDe'
WITH SERDEPROPERTIES (
    'input.regex' = "^\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*,\"*([^\"]*)\"*$"  ) 
)

何时在AWS Glue ETL上使用Amazon Redshift频谱查询Amazon S3数据

[英]When to use Amazon Redshift spectrum over AWS Glue ETL to query on Amazon S3 data

在Amazon Redshift Spectrum中加载外部表时如何跳过最后几条记录？

[英]How to skip end few records when loading external table in Amazon Redshift Spectrum?

将数据从Amazon Redshift加载到HDFS

[英]Loading data from Amazon redshift to HDFS

分区依据的 Amazon Redshift Spectrum 不返回结果

[英]Amazon Redshift Spectrum with partitioned by does not return results

Redshift Spectrum 如何扫描数据？

[英]How Redshift Spectrum scans data?

亚马逊红移中的while循环

[英]while loop in Amazon redshift

将数据加载到 Amazon Redshift：忽略最后 n 行

[英]Loading data into Amazon Redshift: Ignore last n rows

Redshift Spectrum扫描查询的数据大小

[英]Size of Data Scanned by Redshift Spectrum for a query

Redshift Spectrum读取的文件的数据格式是什么？

[英]What is the data format for a file to be read by Redshift Spectrum?

如何在红移光谱表中加载正确的数据？

[英]How to load correct data in redshift spectrum table?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 何时在AWS Glue ETL上使用Amazon Redshift频谱查询Amazon S3数据在Amazon Redshift Spectrum中加载外部表时如何跳过最后几条记录？将数据从Amazon Redshift加载到HDFS 分区依据的 Amazon Redshift Spectrum 不返回结果 Redshift Spectrum 如何扫描数据？亚马逊红移中的while循环将数据加载到 Amazon Redshift：忽略最后 n 行 Redshift Spectrum扫描查询的数据大小 Redshift Spectrum读取的文件的数据格式是什么？如何在红移光谱表中加载正确的数据？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM