繁体   English   中英

Redshift Spectrum 比 Athena 慢得多?

[英]Redshift Spectrum much slower than Athena?

我们的数据以 JSON 格式存储在 S3 中,没有分区。 直到今天我们只使用 athena,但现在我们尝试了 Redshift Spectrum。

我们正在运行相同的查询两次。 一次使用 Redshift Spectrum,一次使用 Athena。 两者都连接到 S3 中的相同数据。

使用 Redshift Spectrum,此报告需要很长时间(超过 15 分钟)才能运行,而使用 Athena 则只需 10 秒即可运行。

我们在两种情况下在 aws 控制台中运行的查询是这样的:

SELECT "events"."persistentid" AS "persistentid",
  SUM(1) AS "sum_number_of_reco"
FROM "analytics"."events" "events"
GROUP BY "events"."persistentid"

知道发生了什么事吗? 谢谢

Redshift Spectrum 处理能力受 Redshift 集群大小的限制。

您可以从提高 Amazon Redshift Spectrum 查询性能中找到信息

Amazon Redshift 查询规划器尽可能将谓词和聚合推送到 Redshift Spectrum 查询层。 当从 Amazon S3 返回大量数据时,处理会受到集群资源的限制。 Redshift Spectrum 会自动扩展以处理大型请求。 因此,只要您可以将处理推送到 Redshift Spectrum 层,您的整体性能就会提高。

另一方面,Athena 为查询使用了优化的资源量,这可能比小型 Redshift 集群所能获得的 Spectrum 更大。

我们对不同 Redshift 集群大小的 Redshift Spectrum 性能进行的测试证实了这一点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM