Pandas read_csv() 有條件地跳過 header 行

Question

我正在嘗試讀取csv文件，但我的 csv 文件不同。 有些有不同的格式，有些有其他的。 我正在嘗試添加控件，這樣我就不需要編輯我的代碼或我的輸入文件。

我的問題是，其中一些 csv 文件在列標題上方有一行字符串。 一個例子：

Created on 12-11-2018,CryptoDataDownload.com
Date,Symbol,Open,High,Low,Close,Volume From,Volume To
2018-12-11 11-AM,ADABTC,8.6e-06,8.61e-06,8.55e-06,8.57e-06,301141.7,2.59
2018-12-11 10-AM,ADABTC,8.69e-06,8.72e-06,8.6e-06,8.6e-06,236949.63,2.05

如果我導入它，分隔符將使用第一行並將文件分成兩列，如Created on 12-11-2018和CryptoDataDownload.com 。

這就是df.head()的樣子：

                        Created on 12-11-2018 CryptoDataDownload.com
Date             Symbol Open     High     Low      Close              Volume From                          Volume To
2018-12-11 11-AM ADABTC 8.6e-06  8.61e-06 8.55e-06 8.57e-06              301141.7                               2.59
2018-12-11 10-AM ADABTC 8.69e-06 8.72e-06 8.6e-06  8.6e-06              236949.63                               2.05
2018-12-11 09-AM ADABTC 8.7e-06  8.7e-06  8.62e-06 8.69e-06             509311.39                               4.41
2018-12-11 08-AM ADABTC 8.69e-06 8.7e-06  8.63e-06 8.7e-06              111367.34                             0.9656

我想檢查這個文件是否有這一行，如果有，就跳過它。

我怎樣才能做到這一點？

Answer 1

如果CSV文件中的標題遵循類似的模式，您可以執行一些簡單的操作，例如在確定是否跳過第一行之前嗅出第一行。

filename = '/path/to/file.csv'
skiprows = int('Created in' in next(open(filename)))
df = pd.read_csv(filename, skiprows=skiprows)

好的做法是使用上下文管理器，所以你也可以這樣做：

filename = '/path/to/file.csv'
skiprows = 0
with open(filename, 'r+') as f:
    for line in f:
        if line.startswith('Created '):
            skiprows = 1
        break
df = pd.read_csv(filename, skiprows=skiprows)

Answer 2

在pandas read_csv命令中使用'comment'參數時，可以跳過以特定字符開頭的行。 在您的情況下，您可以使用以下代碼跳過以“C”開頭的行：

filename = '/path/to/file.csv'
pd.read_csv(filename, comment = "C")

Answer 3

這對我有用：

import os
import requests

CSV_URL = '...'

with open(os.path.split(CSV_URL)[1], 'wb') as f, requests.get(CSV_URL, stream=True) as r:
    lines = 0
    for line in r.iter_lines():
        if lines == 0:
            lines += 1
        else:
            f.write(line+'\n'.encode())

對於您的情況：

import os
import requests

CSV_URL = '...'

with open(os.path.split(CSV_URL)[1], 'wb') as f, requests.get(CSV_URL, stream=True) as r:
    for line in r.iter_lines():
        if line[:11] != 'Created on ':
            f.write(line+'\n'.encode())

改編自： stackoverflow

Pandas read_csv() 有條件地跳過 header 行

問題描述

3 個解決方案

解決方案1
3 已采納 2018-12-12 08:59:59

解決方案2
0 2018-12-12 09:03:26

解決方案3
0 2022-07-27 03:29:33

Pandas read_csv() 有條件地跳過 header 行

問題描述

3 個解決方案

解決方案1 3 已采納 2018-12-12 08:59:59

解決方案2 0 2018-12-12 09:03:26

解決方案3 0 2022-07-27 03:29:33

解決方案1
3 已采納 2018-12-12 08:59:59

解決方案2
0 2018-12-12 09:03:26

解決方案3
0 2022-07-27 03:29:33