簡體   English   中英

pandas.read_csv 在帶有額外列的壞行上不會出錯

[英]pandas.read_csv not erroring on a bad line with extra columns

據我所知,只有當壞行是第一行數據時才會發生這種情況

我有一個簡單的 csv 文件,如下所示:

ownername,streetno,streetname
me,320,main st,just,absolute,garbage
you,40,mint ave

我用來讀取文件的命令是

read_csv(file,',',header=0, quotechar=None, quoting = csv.QUOTE_NONE, index_col=False)

只要第一行數據出現額外的值(只是,絕對,垃圾),它就會解析文件而不會出錯,給我下面的 DataFrame

  ownername  streetno streetname
0        me       320    main st
1       you        40   mint ave

這不是最糟糕的結果,但對於我正在處理的工作,我更願意在列標題數量和數據列數量之間出現任何不匹配時出錯。 設置error_bad_lines=True沒有效果。

我在這里錯過了什么嗎? 這是預期的行為嗎? 如果這是預期的行為,有沒有辦法繞過它或使其更嚴格?

error_bad_lines默認為 true,這就是引發異常的原因。 如果將其設置為 False ,它將跳過錯誤的行。

我還從我的測試中發現,壞數據的截斷只發生在第一行。 可能值得創建一個問題

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM