[英]pandas.read_csv not erroring on a bad line with extra columns
據我所知,只有當壞行是第一行數據時才會發生這種情況
我有一個簡單的 csv 文件,如下所示:
ownername,streetno,streetname
me,320,main st,just,absolute,garbage
you,40,mint ave
我用來讀取文件的命令是
read_csv(file,',',header=0, quotechar=None, quoting = csv.QUOTE_NONE, index_col=False)
只要第一行數據出現額外的值(只是,絕對,垃圾),它就會解析文件而不會出錯,給我下面的 DataFrame
ownername streetno streetname
0 me 320 main st
1 you 40 mint ave
這不是最糟糕的結果,但對於我正在處理的工作,我更願意在列標題數量和數據列數量之間出現任何不匹配時出錯。 設置error_bad_lines=True
沒有效果。
我在這里錯過了什么嗎? 這是預期的行為嗎? 如果這是預期的行為,有沒有辦法繞過它或使其更嚴格?
error_bad_lines
默認為 true,這就是引發異常的原因。
如果將其設置為
False
,它將跳過錯誤的行。
我還從我的測試中發現,壞數據的截斷只發生在第一行。 可能值得創建一個問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.