簡體   English   中英

AWS Glue Crawler 在沒有 Glue Job 的情況下將所有數據發送到 Glue Catalog 和 Athena

[英]AWS Glue Crawler sends all data to Glue Catalog and Athena without Glue Job

我剛接觸 AWS Glue。 我正在使用 AWS Glue Crawler 從兩個 S3 存儲桶中抓取數據。 我在每個桶中有一個文件。 AWS Glue Crawler 在 AWS Glue 數據目錄中創建了兩個表,我還能夠在 AWS Athena 中查詢數據。

我的理解是為了在 Athena 中獲取數據,我需要創建 Glue 作業,這將在 Athena 中提取數據,但我錯了。 說 Glue 爬蟲不需要 Glue 作業就將數據放在 Athena 中是否正確,如果我們需要將數據推送到數據庫中,例如 SQL、Oracle 等,那么我們需要 Glue 作業嗎?

我如何配置 Glue Crawler 使其只獲取增量數據而不是始終從源存儲桶中獲取所有數據?

任何幫助表示贊賞?

Glue 爬蟲僅用於識別您的數據所在的模式。您的數據位於某個地方(例如 S3),爬蟲通過瀏覽一定百分比的文件來識別模式。

然后,您可以使用像 Athena(托管、無服務器 Apache Presto)這樣的查詢引擎來查詢數據,因為它已經有一個模式。

如果你想處理/清理/聚合數據,你可以使用 Glue Jobs,它基本上是托管的無服務器 Spark。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM