![](/img/trans.png)
[英]How to PURGE Stage or delete files from Stage when using SNOWPIPE?
[英]Using Snowpipe - What's the best practice for loading small files. eg. Thousands of 4K files per day?
問題
使用 Snowpipe 加載小文件(例如 4K)比 16K、500K 或 1-10Mb(推薦的文件大小)要貴多少。 注意:這個問題意味着加載小文件比推薦的 1-10Mb 更昂貴。
了解最佳做法是加載大小為 1-10Mb 的文件,但我需要近乎實時的交付(幾分鍾)。 我可以連接文件使它們變大,但在將微批次發送到 S3 和 Snowpipe 之前不能等待超過 60 秒。 我目前每 30 秒寫一次我有的任何東西,但我每 60 秒看到一次 Snowpipe 報告。 這是否意味着將文件寫入 S3 的頻率超過 60 秒沒有意義? IE。 如果我每 30 秒發送一次文件,它實際上會減少平均延遲還是 60 秒的最小 Snowpipe 周期。
加載 4K 文件(每天大約 200Mb,每個文件 4K),每 GB 花費大約 20 個積分,這是非常昂貴的。 如果我加載(例如)CSV 個 1-10Mb 范圍內的文件,使用 Snowpipe 每 GB 的成本應該是多少? 如果我保持在 1-10Mb 范圍內,我的每 GB 成本會下降嗎?
有沒有更快/更便宜的替代方法可以將數據導入 Snowflake? 注意:目前使用 Parquet 格式的 Snowpipe 到 VARIANT,然后使用 STREAMS 和 TASKS 重組數據以進行近乎實時的分析。 了解使用 Snowpipe 比使用虛擬倉庫更便宜。 這是真的? 我懷疑真正的答案是“視情況而定”。 但是“取決於什么”。
除了我的近實時要求外,我還有許多系統提供批量提要(CSV 格式,大約每 4 小時一次,預計在 30 分鍾內延遲處理和呈現以供分析。文件大小在這里有所不同,但大多數是 1Mb到 1Gb 范圍。我應該使用相同的 Snowpipe 解決方案,還是最好從 Airflow 編排工作並使用 COPY 命令,然后在專用虛擬倉庫上使用 SQL 語句?或者實際上,您會推薦什么替代方案?
我可以看到 Snowpipe 加載 4K 文件很昂貴,而且可能比更大的文件更便宜。 如果我加載超過 10Mb 的文件,這些文件會再次變得更昂貴嗎? IE。 成本是“鍾形曲線”還是變平。
背景
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.