[英]Read a csv that has non delimited text and blank lines above column headers and the bottom of the file using Pandas
我正在嘗試使用 Pandas read_csv 讀取管道分隔文件。 但是,文件可能會或可能不會在文件頂部或底部帶有非分隔文本。
我試過了:
pd.read_csv('file_sample.csv', sep='|', error_bad_lines=True)
但是,這不起作用。
我知道我可以使用 csv 庫讀取文件並逐行讀取以確認該行有效。 不幸的是,我需要一個非循環解決方案,最好使用 Pandas。 感謝您的幫助
(60084 row(s) affected)
(30723 row(s) affected)
(41701 row(s) affected)
(171209 row(s) affected)
(17348 row(s) affected)
ProductId|ModelId|ProgramId|BranchId|AdvisorId|TotalAssets|NewAssets|AdditionAssets|ConversionNewAssets|TerminatedAssets
102abc|1|100|xyz|vbd|100|1900|0|10|0
103abc|1|100|xyz|vbd|150|1905|0|10|0
104abc|1|100|xyz|vbd|200|1910|0|10|0
102abc|1|100|xyz|vbd|250|1915|0|10|0
103abc|1|100|xyz|vbd|300|1920|0|10|0
104abc|1|100|xyz|vbd|350|1925|0|10|0
102abc|1|100|xyz|vbd|400|1930|0|10|0
103abc|1|100|xyz|vbd|450|1935|0|10|0
(1648248 row(s) affected)
comment = '('
它忽略以(
開頭的行並將其視為注釋。skip_blank_lines = True
默認情況下忽略空白行。 由於skip_blank_lines
默認值為True
。在這里看到更多的可選參數在這里
>>> df = pd.read_csv('file_sample.csv', sep='|', comment='(')
>>> df
ProductId ModelId ... ConversionNewAssets TerminatedAssets
0 102abc 1 ... 10 0
1 103abc 1 ... 10 0
2 104abc 1 ... 10 0
3 102abc 1 ... 10 0
4 103abc 1 ... 10 0
5 104abc 1 ... 10 0
6 102abc 1 ... 10 0
7 103abc 1 ... 10 0
[8 rows x 10 columns]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.