如何使用 Amazon Athena 访问 Columnar URL INDEX

Question

我是 AWS 的新手，我正在按照本教程访问 Common Crawl 中的列数据集。 我执行了这个查询：

SELECT COUNT(*) AS count,
       url_host_registered_domain
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2018-05'
  AND subset = 'warc'
  AND url_host_tld = 'no'
GROUP BY  url_host_registered_domain
HAVING (COUNT(*) >= 100)
ORDER BY  count DESC

而且我不断收到此错误：

打开错误 Hive split s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2018-05/subset=warc/part-00082-248eba37-08f7-4a53-a4b4-d990640e4be4。 c000.gz.parquet（偏移量=0，长度=33554432）：com.amazonaws.services.s3.model.AmazonS3Exception：请降低请求率。 (Service: Amazon S3; Status Code: 503; Error Code: SlowDown; Request ID: ZSRS4FD2ZTNJY9PV; S3 Extended Request ID: IvDfkWdbDYXjjOPhmXSQD3iVkBiE2Kl1/K3xaFc1JulOhCIcDbWUhnbww7juthZIUm2hZ9ICiwg=; Proxy: null), S3 Extended Request ID: IvDfkWdbDYXjjOPhmXSQD3iVkBiE2Kl1/K3xaFc1JulOhCIcDbWUhnbww7juthZIUm2hZ9ICiwg=

什么原因？ 我该如何解决？

Answer 1

您正在达到 S3 的请求速率限制，因为您的查询试图同时访问太多的镶木地板文件。 考虑将底层文件压缩到 less 中。

如何使用 Amazon Athena 访问 Columnar URL INDEX

问题描述

1 个解决方案

解决方案1
0 2023-01-08 15:29:27

如何使用 Amazon Athena 访问 Columnar URL INDEX

问题描述

1 个解决方案

解决方案1 0 2023-01-08 15:29:27

解决方案1
0 2023-01-08 15:29:27