使用 Pandas 讀取在列標題上方和文件底部具有非分隔文本和空行的 csv

Question

我正在嘗試使用 Pandas read_csv 讀取管道分隔文件。 但是，文件可能會或可能不會在文件頂部或底部帶有非分隔文本。

我試過了：

pd.read_csv('file_sample.csv', sep='|', error_bad_lines=True)

但是，這不起作用。

我知道我可以使用 csv 庫讀取文件並逐行讀取以確認該行有效。 不幸的是，我需要一個非循環解決方案，最好使用 Pandas。 感謝您的幫助

(60084 row(s) affected)



(30723 row(s) affected)


(41701 row(s) affected)



(171209 row(s) affected)

(17348 row(s) affected)


ProductId|ModelId|ProgramId|BranchId|AdvisorId|TotalAssets|NewAssets|AdditionAssets|ConversionNewAssets|TerminatedAssets
102abc|1|100|xyz|vbd|100|1900|0|10|0
103abc|1|100|xyz|vbd|150|1905|0|10|0
104abc|1|100|xyz|vbd|200|1910|0|10|0
102abc|1|100|xyz|vbd|250|1915|0|10|0
103abc|1|100|xyz|vbd|300|1920|0|10|0
104abc|1|100|xyz|vbd|350|1925|0|10|0
102abc|1|100|xyz|vbd|400|1930|0|10|0
103abc|1|100|xyz|vbd|450|1935|0|10|0

(1648248 row(s) affected)

Answer 1

comment = '('它忽略以(開頭的行並將其視為注釋。
skip_blank_lines = True默認情況下忽略空白行。 由於skip_blank_lines默認值為True 。

在這里看到更多的可選參數在這里

>>> df = pd.read_csv('file_sample.csv', sep='|', comment='(')
>>> df
  ProductId  ModelId  ...  ConversionNewAssets TerminatedAssets
0    102abc        1  ...                   10                0
1    103abc        1  ...                   10                0
2    104abc        1  ...                   10                0
3    102abc        1  ...                   10                0
4    103abc        1  ...                   10                0
5    104abc        1  ...                   10                0
6    102abc        1  ...                   10                0
7    103abc        1  ...                   10                0

[8 rows x 10 columns]

使用 Pandas 讀取在列標題上方和文件底部具有非分隔文本和空行的 csv

問題描述

1 個解決方案

解決方案1
1 已采納 2020-02-04 04:22:26

使用 Pandas 讀取在列標題上方和文件底部具有非分隔文本和空行的 csv

問題描述

1 個解決方案

解決方案1 1 已采納 2020-02-04 04:22:26

解決方案1
1 已采納 2020-02-04 04:22:26