繁体   English   中英

通过 Athena 在 S3 查询多个 csv 文件

[英]Query to multiple csv fles at S3 through Athena

我以 csv 格式将我的 SQL DB 导出到 S3 中。 每个表都导出到单独的 csv 文件中并保存在 Amazon S3 中。 现在,我可以向可以连接多个表(S3 中的多个 csv 文件)的 S3 存储桶发送任何查询并获得结果集吗? 我怎样才能做到这一点并保存在单独的 csv 文件中?

步骤是:

  • 将与一张表相关的所有文件放入 S3 存储桶中的单独文件夹(目录路径)中。 不要在同一个文件夹中混合来自多个表的文件,因为 Amazon Athena 会假定它们都属于一个表。
  • 使用CREATE TABLE在 Amazon Athena 中定义一个新表,并通过LOCATION 's3://bucket_name/[folder]/'参数指定文件的保存位置。 这告诉 Athena 在读取数据时使用哪个文件夹。

或者,不使用CREATE TABLE ,一种更简单的方法是:

  • Go 到AWS Glue 管理控制台
  • Select创建爬虫
  • Select添加数据源,提供 S3 中存储数据的位置
  • 根据提示提供其他信息(你会弄明白的)

然后,运行爬网程序,AWS Glue 将查看指定文件夹中的数据文件,并自动为该数据创建一个表。 该表将出现在 Amazon Athena 控制台中。

创建表后,您可以使用普通的 SQL 来查询和连接表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM