Snowflake - 並行處理大型 zip 文件並將其復制到 SF 表

Question

我們有一個將數據從 csv 加載到雪花表的過程。 但由於輸入文件是 gzip 格式，解壓后大約有 70 到 80 GB 的文件。 目前這個過程就像讀取 gzip 文件並直接插入到暫存表中一樣。 但是，對於中型集群，它實際上需要大約 3 到 3:30 的時間才能完成。 需要了解是否可以在此處處理任何並行性以加快處理速度。

CREATE OR REPLACE FILE FORMAT MANGEMENT.TEST_GZIP_FORMAT TYPE = CSV FIELD_DELIMITER = ';' SKIP_HEADER = 2 ESCAPE_UNENCLOSED_FIELD = NONE TRIM_SPACE = TRUE;


INSERT INTO TEST_DB.TEMP_TABLE (
                        emp_id, emp_name ) SELECT DISTINCT temp.$1 as emp_id,
                        temp.$2  AS emp_name   from
                        /Azureserverlocation/test/apps/ (file_format => MANAGEMENT.TEST_GZIP_FORMAT, pattern=>'./test_file.gz') temp;

Answer 1

你能把你的過程分成兩個階段並使用copy into .

使用COPY INTO將數據復制到階段表中。

COPY INTO TEST_DB.TEMP_TABLE_STG 
from '/Azureserverlocation/test/apps/'
file_format = (format_name=MANAGEMENT.TEST_GZIP_FORMAT, pattern=>'./test_file.gz');

然后得到一個與 stg distinct的表。

CREATE TABLE TEST_DB.TEMP_TABLE as 
SELECT DISTINCT emp_id, emp_name from TEST_DB.TEMP_TABLE_STG

Snowflake - 並行處理大型 zip 文件並將其復制到 SF 表

問題描述

1 個解決方案

解決方案1
0 2023-01-20 07:31:42

Snowflake - 並行處理大型 zip 文件並將其復制到 SF 表

問題描述

1 個解決方案

解決方案1 0 2023-01-20 07:31:42

解決方案1
0 2023-01-20 07:31:42