從 csv 文件批量插入 - 忽略有錯誤的行 - SQL Server

Question

我正在嘗試將數據從 csv 文件導入 SQL Server。 csv 文件中有數千個條目，其中有很多行數據不正確。

CSV 文件中的一些行是：

`"ID"|"EmpID"|"FName"|"LName"|"Gender"|"DateOfBirth"
"1"|"90043041961"|"ABCD"|"TEST"|"F"|"1848-05-05 00:00:00.000"
"1"|"10010161961"|"XYZ"|"TEST"|"F"|"1888-12-12 00:00:00.000"
.
.
..
..
....
"4"|"75101141821PPKKLL"|"LLKK"|"F"|"1925-09-09 00:00:00.000"|""
"4"|"32041401961UUYYTT"|"PPLL"|"M"|"1920-01-01 00:00:00.000"|""
.
.....
"25"|"00468132034"|"FGTT"|"OOOO"|"F"|"1922-11-11 00:00:00.000"
"25"|"00468132034"|"KKKK"|"PPPP"|"F"|"1922-11-11 00:00:00.000"

創建 TestTable 並嘗試將數據（來自 csv 文件）插入其中：

create table TestTable
(
     ID varchar(5),
     EmpID varchar(25),
     FName varchar(25),
     LName varchar(25),
     Gender varchar(5),
     DateOfirthB varchar(30)
);

我正在使用以下腳本將數據從 csv 文件導入 SQL Server 中的TestTable ：

bulk insert TestTable
from 'C:\TestData.csv'
with 
   (firstrow = 2,
    DATAFILETYPE='char',
    FIELDTERMINATOR= '"|"',
    ROWTERMINATOR = '\n',
    ERRORFILE ='C:\ImportErrors.csv',
    MAXERRORS = 0,
    TABLOCK
   );

錯誤：

消息 4863，級別 16，狀態 1，第 1 行
第 32763 行第 5 列（性別）的批量加載數據轉換錯誤（截斷）。

消息 4863，級別 16，狀態 1，第 1 行
第 32764 行第 5 列（性別）的批量加載數據轉換錯誤（截斷）。

有什么方法可以忽略由於某些或其他原因無法添加的行（在 csv 文件中）並插入具有正確語法的行？

謝謝

PS：我不能使用SSIS。 只允許使用 SQL

Answer 1

我每周都會處理從不同來源收到的不同 CSV 文件，因此其中的數據很好且干凈，而其他數據則是一場噩夢。 所以這就是我處理收到的 CSV 字段的方式，希望對您有所幫助。 您仍然需要添加一些數據驗證來處理格式錯誤的數據。

SET NOCOUNT ON
GO

-- Create Staging Table
    IF OBJECT_ID(N'TempDB..#ImportData', N'U') IS NOT NULL
        DROP TABLE #ImportData

    CREATE TABLE #ImportData(CSV NVARCHAR(MAX))

-- Insert the CSV Data
    BULK INSERT #ImportData
        FROM 'C:\TestData.csv' 

-- Add Control Columns
    ALTER TABLE #ImportData 
        ADD ID INT IDENTITY(1, 1)

    ALTER TABLE #ImportData 
        ADD Malformed BIT DEFAULT(0)

-- Declare Variables
    DECLARE @Deliminator NVARCHAR(5) = '|', @ID INT = 0, @DDL NVARCHAR(MAX)
    DECLARE @NumberCols INT = (SELECT LEN(CSV) - LEN(REPLACE(CSV, @Deliminator, '')) FROM  #ImportData WHERE ID = 1)

-- Flag Malformed Rows
    UPDATE #ImportData
        SET Malformed = CASE WHEN LEN(CSV) - LEN(REPLACE(CSV, @Deliminator, '')) != @NumberCols THEN 1 ELSE 0 END

-- Create Second Staging Table
    IF OBJECT_ID(N'TestTable', N'U') IS NOT NULL
        DROP TABLE TestTable

    CREATE table TestTable
        (ID varchar(4000),
        EmpID varchar(4000),
        FName varchar(4000),
        LName varchar(4000),
        Gender varchar(4000),
        DateOfirthB varchar(4000));

-- Insert CSV Rows
    WHILE(1 = 1)
        BEGIN
            SELECT TOP 1
                @ID = ID
                ,@DDL = 'INSERT INTO TestTable(ID, EmpID, FName, LName, Gender, DateOfirthB)' + CHAR(13) + CHAR(10) + REPLICATE(CHAR(9), 1)
                            + 'VALUES' -- + CHAR(13) + CHAR(10) + REPLICATE(CHAR(9), 2)
                                    + '(' + DDL + ')'
            FROM
                (
                    SELECT 
                        ID
                        ,DDL = '''' + REPLACE(REPLACE(REPLACE(CSV, '''', ''''''), @Deliminator, ''','''), '"', '')  + ''''
                    FROM  
                        #ImportData 
                    WHERE 
                        ID > 1
                        AND Malformed = 0) D
            WHERE
                ID > @ID
            ORDER BY
                ID

            IF @@ROWCOUNT = 0 BREAK

            EXEC sp_executesql @DDL
        END

-- Clean Up
    IF OBJECT_ID(N'TempDB..#ImportData', N'U') IS NOT NULL
        DROP TABLE #ImportData

-- View Results
    SELECT * FROM dbo.TestTable

Answer 2

由於 OP 聲明“[...] 插入具有正確語法的那個”，我想知道為什么沒有人建議修改 MAXERRORS 子句。 盡管並非所有錯誤都可以偽裝，但它適用於轉換錯誤。 因此，我的建議是使用 MAXERRORS=999 代替 MAXERRORS=0 （根據最初的例子）。

從 csv 文件批量插入 - 忽略有錯誤的行 - SQL Server

問題描述

2 個解決方案

解決方案1
3 2016-11-15 23:30:46

解決方案2
0 2020-11-23 16:18:36

從 csv 文件批量插入 - 忽略有錯誤的行 - SQL Server

問題描述

2 個解決方案

解決方案1 3 2016-11-15 23:30:46

解決方案2 0 2020-11-23 16:18:36

解決方案1
3 2016-11-15 23:30:46

解決方案2
0 2020-11-23 16:18:36