簡體 English 中英

AWS Glue Crawler 在沒有 Glue Job 的情況下將所有數據發送到 Glue Catalog 和 Athena

[英]AWS Glue Crawler sends all data to Glue Catalog and Athena without Glue Job

原文 2021-10-08 14:50:54 9 1 amazon-web-services/ aws-glue/ aws-glue-data-catalog

我剛接觸 AWS Glue。 我正在使用 AWS Glue Crawler 從兩個 S3 存儲桶中抓取數據。 我在每個桶中有一個文件。 AWS Glue Crawler 在 AWS Glue 數據目錄中創建了兩個表，我還能夠在 AWS Athena 中查詢數據。

我的理解是為了在 Athena 中獲取數據，我需要創建 Glue 作業，這將在 Athena 中提取數據，但我錯了。 說 Glue 爬蟲不需要 Glue 作業就將數據放在 Athena 中是否正確，如果我們需要將數據推送到數據庫中，例如 SQL、Oracle 等，那么我們需要 Glue 作業嗎？

我如何配置 Glue Crawler 使其只獲取增量數據而不是始終從源存儲桶中獲取所有數據？

任何幫助表示贊賞？

1 個解決方案

Glue 爬蟲僅用於識別您的數據所在的模式。您的數據位於某個地方（例如 S3），爬蟲通過瀏覽一定百分比的文件來識別模式。

然后，您可以使用像 Athena（托管、無服務器 Apache Presto）這樣的查詢引擎來查詢數據，因為它已經有一個模式。

如果你想處理/清理/聚合數據，你可以使用 Glue Jobs，它基本上是托管的無服務器 Spark。

AWS 膠水作業 (Pyspark) 到 AWS 膠水數據目錄

[英]AWS glue job (Pyspark) to AWS glue data catalog

亞馬遜雅典娜可以在沒有膠水目錄的情況下工作嗎？

[英]Can amazon Athena work without Glue catalog?

通過 Athena 創建 Glue 數據目錄 SDK

[英]Create Glue data catalog via Athena SDK

將 AWS Sagemaker 連接到 AWS Glue 數據目錄 - Glue DevEndpoint

[英]connect AWS Sagemaker to AWS Glue Data catalog - Glue DevEndpoint

AWS Glue 爬蟲問題

[英]AWS Glue Crawler issue

可重復使用的 AWS Glue 作業

[英]Reusable AWS Glue Job

AWS Glue 作業書簽

[英]AWS Glue Job Bookmarking

如何創建 Athena 堆棧並使用 Glue Data 目錄？

[英]How to create an Athena stack and consume Glue Data catalog?

aws 上膠水爬蟲的更新時間表

[英]update schedule of a glue crawler on aws

AWS Glue 使用 CLI 安排作業

[英]AWS Glue Schedule a Job with Cli

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 AWS 膠水作業 (Pyspark) 到 AWS 膠水數據目錄亞馬遜雅典娜可以在沒有膠水目錄的情況下工作嗎？通過 Athena 創建 Glue 數據目錄 SDK 將 AWS Sagemaker 連接到 AWS Glue 數據目錄 - Glue DevEndpoint AWS Glue 爬蟲問題可重復使用的 AWS Glue 作業 AWS Glue 作業書簽如何創建 Athena 堆棧並使用 Glue Data 目錄？ aws 上膠水爬蟲的更新時間表 AWS Glue 使用 CLI 安排作業

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM