[英]AWS Data Lake Ingest
您是否需要使用胶水摄取excel和其他专有格式,或者允许胶水在您的s3存储桶中爬行以在数据湖中使用这些数据格式?
我浏览了“ AWS Cloud上的Data Lake Foundation ”文档,然后开始将数据导入湖中。 我有一个数据提供程序,其中有大量数据作为excel和访问文件存储在其系统上。
根据流程,他们会将数据上载到Submit s3存储桶中,这将引发一系列操作,但是没有其他数据格式可以与其他工具一起使用。
使用这些文件是否需要在存储桶中提交的数据上使用胶水,或者是否有其他方法可以使这些数据可供其他工具(如Athena和redshift Spectrum)使用?
感谢您对本主题的理解。
-Guido
我看不到可以将excel数据直接带到Data Lake。 在加载到Data Lake中之前,您可能需要转换为CSV / TSV / Json或其他格式。
Redshift Spectrum支持的格式:
http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html-到目前为止,我仍然没有看到Excel。
雅典娜支持的文件格式:
http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html-我看不到这里也不支持Excel。
您需要将文件上传到S3,以使用Athena或Redshift Spectrum甚至Redshift存储本身。
将文件上传到S3:
如果文件更大,则需要使用S3分段上传来更快地上传。 如果要提高速度,则需要使用S3加速器上载文件。
使用雅典娜查询大数据:
您可以从S3位置使用Athena创建外部表。 创建外部表后,使用Athena Sql参考查询数据。
http://docs.aws.amazon.com/athena/latest/ug/language-reference.html
使用Redshift Spectrum查询大数据
与Athena相似,您可以使用Redshift创建外部表。 开始查询这些表并在Redshift上获取结果。
Redshift有很多商业工具,我使用SQL Workbench。 它是受AWS支持的免费开源和坚如磐石。
SQL WorkBench: http : //www.sql-workbench.net/
将WorkBench连接到Redshift: http : //docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html
将数据复制到Redshift:
同样,如果要将数据存储到Redshift,则可以使用copy命令从S3中提取数据并将其加载到Redshift。
复制命令示例:
http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html
Redshift群集大小和节点数:
在创建Redshift Cluster之前,请检查所需的大小和所需的节点数。 更多数量的节点使查询并行运行。 一个更重要的因素是您的数据分布情况。 (分配键和排序键)
我在Redshift方面有很好的经验,赶上速度可能要花一些时间。
希望能帮助到你。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.