[英]buffer s3 object inputs
有誰知道除了 kinesis firehose 之外,AWS 是否還有其他服務可以捕獲 S3 注入事件? 我正在嘗試對 VPC 流日志進行一些分析,當前設置是 cloud-watch-logs -> Kinesis Firehose -> S3 -> Athena。
問題是 kinesis firehose 最多只能緩沖 128MB,這對我來說太小了。
來自 Amazon S3 的事件可以 go 到:
因此,您可以將消息發送到 SQS 隊列,然后有一個定期流程(每小時?)檢索許多消息並將它們寫入單個文件。
或者,您可以使用當前設置,但定期使用 Amazon Athena通過使用CREATE TABLE AS
加入多個文件。 這將從現有文件中獲取 select,並將 output 存儲在新表(具有新位置)中。 您甚至可以使用它將文件轉換為更易於在 Athena 中查詢的格式(例如 Snappy-compressed Parquet)。 困難的部分是僅將每個輸入文件包含在此串聯過程中一次(可能使用SymlinkTextInputFormat )。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.