繁体   English   中英

AWS Glue 爬虫问题

[英]AWS Glue Crawler issue

我有一个 ETL 过程的要求,其中原始数据将每天 1 次加载到 s3 buckt(Zip 可能包含 30 到 50 个具有不同架构的单独文件)。 数据每天都是新的,可能具有也可能不具有相同的模式。 我解压缩了数据并将其加载到 1 个 s3 存储桶中并抓取了文件并运行了一些作业并处理了数据。 现在问题是第二天加载新的原始数据时,当我再次抓取新更新的文件夹时,Glue 目录中的表格保持不变,具有相同的数据引用。

如果 teh daya 每天都在变化并且应该在第二天创建新表,我有什么替代选择。 或者我怎样才能只读取新数据。??

我尝试使用相同的爬虫和具有不同 s3 文件夹的相同数据库来抓取新文件夹。

新原始文件的架构似乎与爬虫已经爬过的文件相同。 在这种情况下,您不会看到新表的创建。 这就是 Crawler 的工作原理。

要确认这一点,请使用 Athena 通过选择爬虫创建的表来查询文件,您应该能够看到所有文件中的所有数据。

仅当这些新文件的架构不同时才会创建新表。

要了解 Crawler 的工作原理,请给本文档一个 go。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM