繁体 English 中英

将数据从 PostgreSQL 移动到 AWS S3 并使用 RedShift Spectrum 进行分析

[英]Move data from PostgreSQL to AWS S3 and analyze with RedShift Spectrum

原文 2018-11-05 15:44:09 9 2 postgresql/ amazon-web-services/ apache-spark/ amazon-redshift/ amazon-redshift-spectrum

我有大量具有不同模式的 PostgreSQL 表以及其中的大量数据。

我现在无法进行数据分析，因为数据量非常大 - 几 TB 的数据和 PostgreSQL 无法在合理的时间内处理查询。

我正在考虑以下方法 - 我将使用 Apache Spark 处理我所有的 PostgreSQL 表，加载数据帧并将它们作为 Parquet 文件存储在 AWS S3 中。 然后我将使用 RedShift Spectrum 来查询存储在这些 PARQUET 文件中的信息。

首先，我想问 - 这个解决方案是否有效？

第二个 - RedShift Spectrum 是否能够从这些 Parquet 文件自动创建 EXTERNAL 表而无需额外的架构规范（即使原始 PostgreSQL 表包含 AWS RedShift 不支持的数据类型）？

2 个解决方案

Redshift Spectrum 几乎支持与 Redshift 本身相同的数据类型。
Redshift Spectrum 在幕后创建计算节点集群。 集群的大小基于实际 Redshift 集群节点的数量，因此如果您计划创建 1 个节点的 Redshift 集群，Spectrum 的运行速度将非常缓慢。
正如您在评论中指出的那样，您可以使用 Athena 查询数据，在您的情况下，它是更好的选择，而不是 Spectrum。 但是 Athena 有几个限制，例如 30 分钟的运行时间、内存消耗等。因此，如果您计划使用多个连接进行复杂的查询，它就无法工作。
Redshift Spectrum 无法在没有提供结构的情况下创建外部表。
在您的情况下，最佳解决方案是使用 Spark（在 EMR 或 Glue 上）转换数据，使用 Athena 进行查询，如果 Athena 无法执行特定查询 - 在相同数据上使用 SparkSQL。 您可以使用 Glue，但在 Spot 实例上的 EMR 上运行作业将更加灵活且成本更低。 EMR 集群附带 EMRFS，这使您能够几乎透明地使用 S3 而不是 HDFS。

AWS Glue作为您的一个选项可能会很有趣。 它既是 Spark 的托管版本，带有一些 AWS 特定插件和数据爬虫 + 数据目录。

它可以抓取 Parquet 文件等非结构化数据并找出结构。 然后，您可以在需要时以结构化形式将其导出到 AWS RedShift。

请参阅此博客文章，了解如何使用 JDBC 将其连接到 postgres 数据库以将数据从 Postgres 移动到 S3。

AWS Redshift从S3加载数据

[英]AWS Redshift loading data from S3

如何将数据从AWS Postgres RDS传输到S3（然后称为Redshift）？

[英]How to pipe data from AWS Postgres RDS to S3 (then Redshift)?

使用Psycopg2将数据从S3复制到AWS Redshift时出错

[英]Error Copying Data From S3 to AWS Redshift With Psycopg2

将数据从S3文件复制到AWS Postgresql：参数无效？

[英]Copy data from S3 file into aws postgresql: invalid argument?

将大数据从PostgreSQL导出到AWS s3

[英]Export big data from PostgreSQL to AWS s3

将数据从S3复制到Redshift

[英]Copying data from S3 to Redshift

将数据从S3加载到PostgreSQL RDS

[英]Loading data from S3 to PostgreSQL RDS

将数据从redshift传输到postgresql

[英]Transfer data from redshift to postgresql

从S3复制到Redshift无法识别换行符

[英]COPY from S3 to Redshift not recognizing newline

从Redshift卸载到S3：身份验证不起作用

[英]Unload from Redshift to S3: Authentication not working

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 AWS Redshift从S3加载数据如何将数据从AWS Postgres RDS传输到S3（然后称为Redshift）？使用Psycopg2将数据从S3复制到AWS Redshift时出错将数据从S3文件复制到AWS Postgresql：参数无效？将大数据从PostgreSQL导出到AWS s3 将数据从S3复制到Redshift 将数据从S3加载到PostgreSQL RDS 将数据从redshift传输到postgresql 从S3复制到Redshift无法识别换行符从Redshift卸载到S3：身份验证不起作用

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM