繁体   English   中英

AWS Data Lake提取

[英]AWS Data Lake Ingest

您是否需要使用胶水摄取excel和其他专有格式,或者允许胶水在您的s3存储桶中爬行以在数据湖中使用这些数据格式?

我浏览了“ AWS Cloud上的Data Lake Foundation ”文档,然后开始将数据导入湖中。 我有一个数据提供程序,其中有大量数据作为excel和访问文件存储在其系统上。

根据流程,他们会将数据上载到Submit s3存储桶中,这将引发一系列操作,但是没有其他数据格式可以与其他工具一起使用。

使用这些文件是否需要在存储桶中提交的数据上使用胶水,或者是否有其他方法可以使这些数据可供其他工具(如Athena和redshift Spectrum)使用?

感谢您对本主题的理解。

-Guido

我看不到可以将excel数据直接带到Data Lake。 在加载到Data Lake中之前,您可能需要转换为CSV / TSV / Json或其他格式。

Redshift Spectrum支持的格式:

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html-到目前为止,我仍然没有看到Excel。

雅典娜支持的文件格式:

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html-我看不到这里也不支持Excel。

您需要将文件上传到S3,以使用Athena或Redshift Spectrum甚至Redshift存储本身。

将文件上传到S3:

如果文件更大,则需要使用S3分段上传来更快地上传。 如果要提高速度,则需要使用S3加速器上载文件。

使用雅典娜查询大数据:

您可以从S3位置使用Athena创建外部表。 创建外部表后,使用Athena Sql参考查询数据。

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

使用Redshift Spectrum查询大数据

与Athena相似,您可以使用Redshift创建外部表。 开始查询这些表并在Redshift上获取结果。

Redshift有很多商业工具,我使用SQL Workbench。 它是受AWS支持的免费开源和坚如磐石。

SQL WorkBench: http : //www.sql-workbench.net/

将WorkBench连接到Redshift: http : //docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

将数据复制到Redshift:

同样,如果要将数据存储到Redshift,则可以使用copy命令从S3中提取数据并将其加载到Redshift。

复制命令示例:

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Redshift群集大小和节点数:

在创建Redshift Cluster之前,请检查所需的大小和所需的节点数。 更多数量的节点使查询并行运行。 一个更重要的因素是您的数据分布情况。 (分配键和排序键)

我在Redshift方面有很好的经验,赶上速度可能要花一些时间。

希望能帮助到你。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM