膠水爬蟲中排除的文件夾在 Athena 中拋出 HIVE_BAD_DATA 錯誤

Question

我正在嘗試創建一個膠水爬蟲來爬取特定的路徑模式。 我有以下路徑：

bucket/inference/2022/04/28/modelling/metadata.tar.gz
bucket/inference/2022/04/28/prediction/predictions.parquet
bucket/inference/2022/04/28/extract/data.parquet

每天重復相同的模式，即我們有上面的

bucket/inference/2022/04/29/*
bucket/inference/2022/04/30/*

我只想每天抓取**/predictions文件夾中的內容。 我已經設置了一個指向bucket/inference/的膠水爬蟲，並且具有以下排除模式：

**/modelling/**
**/extract/**

日志正確顯示bucket/inference/2022/04/28/modelling/metadata.tar.gz和bucket/inference/2022/04/28/extract/data.parquet文件被排除在外，DDL 元數據顯示它在數據中選擇了正確數量的對象和行。

但是，當我在 Athena 中將 go 轉為SELECT *時，出現以下錯誤：

HIVE_BAD_DATA: Not valid Parquet file: s3://bucket/inference/2022/04/28/modelling/metadata.tar.gz expected magic number: PAR1

我已經嘗試了上述排除模式的每個組合，但它似乎總是在提取建模文件夾中的內容，盡管日志明確排除了它。 我在這里錯過了什么嗎？

非常感謝。

Answer 1

這是 Athena 的一個已知問題。 來自 AWS 故障排除文檔：

Athena 無法識別您指定 AWS Glue 爬網程序的排除模式。 例如，如果您有一個包含 .csv 和 .json 文件的 Amazon S3 存儲桶，並且您從爬網程序中排除了 .json 文件，Athena 會查詢這兩組文件。 為避免這種情況，請將要排除的文件放在其他位置。

參考： Athena 讀取我從 AWS Glue 爬蟲（AWS）中排除的文件

膠水爬蟲中排除的文件夾在 Athena 中拋出 HIVE_BAD_DATA 錯誤

問題描述

1 個解決方案

解決方案1
1 已采納 2022-05-05 13:56:43

膠水爬蟲中排除的文件夾在 Athena 中拋出 HIVE_BAD_DATA 錯誤

問題描述

1 個解決方案

解決方案1 1 已采納 2022-05-05 13:56:43

解決方案1
1 已采納 2022-05-05 13:56:43