繁体 English 中英

AWS Data Lake提取

[英]AWS Data Lake Ingest

原文 2017-09-21 19:01:33 6 1 excel/ amazon-web-services/ amazon-s3/ amazon-athena/ data-lake

您是否需要使用胶水摄取excel和其他专有格式，或者允许胶水在您的s3存储桶中爬行以在数据湖中使用这些数据格式？

我浏览了“ AWS Cloud上的Data Lake Foundation ”文档，然后开始将数据导入湖中。 我有一个数据提供程序，其中有大量数据作为excel和访问文件存储在其系统上。

根据流程，他们会将数据上载到Submit s3存储桶中，这将引发一系列操作，但是没有其他数据格式可以与其他工具一起使用。

使用这些文件是否需要在存储桶中提交的数据上使用胶水，或者是否有其他方法可以使这些数据可供其他工具（如Athena和redshift Spectrum）使用？

感谢您对本主题的理解。

-Guido

1 个解决方案

我看不到可以将excel数据直接带到Data Lake。 在加载到Data Lake中之前，您可能需要转换为CSV / TSV / Json或其他格式。

Redshift Spectrum支持的格式：

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html-到目前为止，我仍然没有看到Excel。

雅典娜支持的文件格式：

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html-我看不到这里也不支持Excel。

您需要将文件上传到S3，以使用Athena或Redshift Spectrum甚至Redshift存储本身。

将文件上传到S3：

如果文件更大，则需要使用S3分段上传来更快地上传。 如果要提高速度，则需要使用S3加速器上载文件。

使用雅典娜查询大数据：

您可以从S3位置使用Athena创建外部表。 创建外部表后，使用Athena Sql参考查询数据。

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

使用Redshift Spectrum查询大数据

与Athena相似，您可以使用Redshift创建外部表。 开始查询这些表并在Redshift上获取结果。

Redshift有很多商业工具，我使用SQL Workbench。 它是受AWS支持的免费开源和坚如磐石。

SQL WorkBench： http : //www.sql-workbench.net/

将WorkBench连接到Redshift： http : //docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

将数据复制到Redshift：

同样，如果要将数据存储到Redshift，则可以使用copy命令从S3中提取数据并将其加载到Redshift。

复制命令示例：

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Redshift群集大小和节点数：

在创建Redshift Cluster之前，请检查所需的大小和所需的节点数。 更多数量的节点使查询并行运行。 一个更重要的因素是您的数据分布情况。 （分配键和排序键）

我在Redshift方面有很好的经验，赶上速度可能要花一些时间。

希望能帮助到你。

从 Excel 管理 Azure Data Lake 中文件夹的授权

[英]Manage Authorization To folders in Azure Data Lake from Excel

Azure Data Lake Excel 导出到 CSV 作为相同的文件夹/路径

[英]Azure Data Lake Excel Export To CSV as Same Folder / Path

How to decide between Azure Data Lake vs Azure SQL vs Azure Data Lake Analytics vs Azure SQL VM?

[英]How to decide between Azure Data Lake vs Azure SQL vs Azure Data Lake Analytics vs Azure SQL VM?

如何转换xlsx文件中的数据，以删除单元格中的合并并使用SSIS将某些列转置为在SQL Server中接收数据？

[英]How can I transform data in xlsx file removing merge in cells and transposing some columns to ingest data in SQL Server using SSIS?

将AWS数据导入Excel？

[英]AWS data into Excel?

使用查询将多个 excel 文件摄取到 MySQL

[英]Ingest multiple excel files to MySQL using query

如何从用Java编写的AWS Lambda返回二进制数据

[英]How to return binary data from AWS Lambda written in Java

是否可以从 Excel 文件中导入 AWS DynamoDB 中的数据？

[英]Is it possible to Import data in AWS DynamoDB from Excel file?

从 Microsoft CSV 读取大数据并写入 AWS 中的 Microsoft Excel 的策略

[英]Strategies reading large data from Microsoft CSV and writing to Microsoft Excel in AWS

我们可以从 AWS S3 复制图像并将其写入 excel 文件 (S3) 而不使用 Python 将数据存储在本地吗？

[英]Can we copy image from AWS S3 and write it into excel file (S3) without storing the data locally using Python?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从 Excel 管理 Azure Data Lake 中文件夹的授权 Azure Data Lake Excel 导出到 CSV 作为相同的文件夹/路径 How to decide between Azure Data Lake vs Azure SQL vs Azure Data Lake Analytics vs Azure SQL VM? 如何转换xlsx文件中的数据，以删除单元格中的合并并使用SSIS将某些列转置为在SQL Server中接收数据？将AWS数据导入Excel？使用查询将多个 excel 文件摄取到 MySQL 如何从用Java编写的AWS Lambda返回二进制数据是否可以从 Excel 文件中导入 AWS DynamoDB 中的数据？从 Microsoft CSV 读取大数据并写入 AWS 中的 Microsoft Excel 的策略我们可以从 AWS S3 复制图像并将其写入 excel 文件 (S3) 而不使用 Python 将数据存储在本地吗？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM