簡體   English   中英

緩沖區 s3 object 輸入

[英]buffer s3 object inputs

有誰知道除了 kinesis firehose 之外,AWS 是否還有其他服務可以捕獲 S3 注入事件? 我正在嘗試對 VPC 流日志進行一些分析,當前設置是 cloud-watch-logs -> Kinesis Firehose -> S3 -> Athena。

問題是 kinesis firehose 最多只能緩沖 128MB,這對我來說太小了。

來自 Amazon S3 的事件可以 go 到:

  • AWS Lambda 函數
  • 亞馬遜 SNS 主題
  • 亞馬遜 SQS 隊列

因此,您可以將消息發送到 SQS 隊列,然后有一個定期流程(每小時?)檢索許多消息並將它們寫入單個文件。

或者,您可以使用當前設置,但定期使用 Amazon Athena通過使用CREATE TABLE AS加入多個文件。 這將從現有文件中獲取 select,並將 output 存儲在新表(具有新位置)中。 您甚至可以使用它將文件轉換為更易於在 Athena 中查詢的格式(例如 Snappy-compressed Parquet)。 困難的部分是僅將每個輸入文件包含在此串聯過程中一次(可能使用SymlinkTextInputFormat )。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM