![](/img/trans.png)
[英]How to copy parquet file from Azure Blob Storage into Snowflake table?
[英]Snowflake - Parallel processing and copy of large zip file to a SF Table
我們有一個將數據從 csv 加載到雪花表的過程。 但由於輸入文件是 gzip 格式,解壓后大約有 70 到 80 GB 的文件。 目前這個過程就像讀取 gzip 文件並直接插入到暫存表中一樣。 但是,對於中型集群,它實際上需要大約 3 到 3:30 的時間才能完成。 需要了解是否可以在此處處理任何並行性以加快處理速度。
CREATE OR REPLACE FILE FORMAT MANGEMENT.TEST_GZIP_FORMAT TYPE = CSV FIELD_DELIMITER = ';' SKIP_HEADER = 2 ESCAPE_UNENCLOSED_FIELD = NONE TRIM_SPACE = TRUE;
INSERT INTO TEST_DB.TEMP_TABLE (
emp_id, emp_name ) SELECT DISTINCT temp.$1 as emp_id,
temp.$2 AS emp_name from
/Azureserverlocation/test/apps/ (file_format => MANAGEMENT.TEST_GZIP_FORMAT, pattern=>'./test_file.gz') temp;
你能把你的過程分成兩個階段並使用copy into
.
COPY INTO
將數據復制到階段表中。COPY INTO TEST_DB.TEMP_TABLE_STG
from '/Azureserverlocation/test/apps/'
file_format = (format_name=MANAGEMENT.TEST_GZIP_FORMAT, pattern=>'./test_file.gz');
distinct
的表。CREATE TABLE TEST_DB.TEMP_TABLE as
SELECT DISTINCT emp_id, emp_name from TEST_DB.TEMP_TABLE_STG
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.