繁体 English 中英

AWS Glue 爬虫问题

[英]AWS Glue Crawler issue

原文 2022-11-15 06:57:05 6 1 database/ amazon-web-services/ aws-glue

我有一个 ETL 过程的要求，其中原始数据将每天 1 次加载到 s3 buckt（Zip 可能包含 30 到 50 个具有不同架构的单独文件）。 数据每天都是新的，可能具有也可能不具有相同的模式。 我解压缩了数据并将其加载到 1 个 s3 存储桶中并抓取了文件并运行了一些作业并处理了数据。 现在问题是第二天加载新的原始数据时，当我再次抓取新更新的文件夹时，Glue 目录中的表格保持不变，具有相同的数据引用。

如果 teh daya 每天都在变化并且应该在第二天创建新表，我有什么替代选择。 或者我怎样才能只读取新数据。？？

我尝试使用相同的爬虫和具有不同 s3 文件夹的相同数据库来抓取新文件夹。

1 个解决方案

新原始文件的架构似乎与爬虫已经爬过的文件相同。 在这种情况下，您不会看到新表的创建。 这就是 Crawler 的工作原理。

要确认这一点，请使用 Athena 通过选择爬虫创建的表来查询文件，您应该能够看到所有文件中的所有数据。

仅当这些新文件的架构不同时才会创建新表。

要了解 Crawler 的工作原理，请给本文档一个 go。

aws 上胶水爬虫的更新时间表

[英]update schedule of a glue crawler on aws

AWS Glue Crawler 无法解析大文件（分类未知）

[英]AWS Glue Crawler cannot parse large files (classification UNKNOWN)

AWS Glue Crawler - 仅爬取新文件夹 - 内部服务异常

[英]AWS Glue Crawler - Crawl new folders only - Internal Service Exception

AWS Glue：如何确保胶水爬虫始终从 S3 获取最新文件

[英]AWS Glue : How to make sure glue crawler always picks up the latest file from S3

AWS Glue 3.0 的铸造问题 - Pyspark

[英]Cast Issue with AWS Glue 3.0 - Pyspark

如何为 AWS Glue 中的爬网程序排除具有特定年份的特定文件夹？

[英]How can I exclude specific folders with a specific year for the crawler in AWS Glue?

AWS Athena 从 GLUE Crawler 输入的表中返回零记录来自 S3

[英]AWS Athena Return Zero Records from Tables Created by GLUE Crawler input csv from S3

创建多个表的胶水爬虫

[英]Glue crawler creating multiple tables

使用 Docker 容器在本地开发 AWS Glue ETL 作业

[英]Issue developing AWS Glue ETL jobs locally using a Docker container

步骤 function 挂在胶履带上的步骤

[英]Step function hanging on glue crawler step

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 aws 上胶水爬虫的更新时间表 AWS Glue Crawler 无法解析大文件（分类未知） AWS Glue Crawler - 仅爬取新文件夹 - 内部服务异常 AWS Glue：如何确保胶水爬虫始终从 S3 获取最新文件 AWS Glue 3.0 的铸造问题 - Pyspark 如何为 AWS Glue 中的爬网程序排除具有特定年份的特定文件夹？ AWS Athena 从 GLUE Crawler 输入的表中返回零记录来自 S3 创建多个表的胶水爬虫使用 Docker 容器在本地开发 AWS Glue ETL 作业步骤 function 挂在胶履带上的步骤

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM