Python：哪種是讀取大型.csv文件的最佳方法？

Question

我必須閱讀大約20MB .csv 。 這些文件是由8列和5198行組成的表。 我必須對特定列I進行一些統計。

我有n不同的文件，這是我在做什么：

stat = np.arange(n)
    I = 0
    for k in stat:
        df = pd.read_csv(pathS+'run_TestRandom_%d.csv'%k, sep=' ')
        I+=df['I']
    I = I/k ## Average

這個過程需要0.65s ，我想知道是否有最快的方法。

Answer 1

編輯：顯然，這是一種非常糟糕的方法！ 不要做我想像的事：/

我現在正在使用大小相同的數據集解決類似的問題。 我正在使用的方法是numpy的genfromtxt

import numpy as np

ary2d = np.genfromtxt('yourfile.csv', delimiter=',', skip_header=1,
    skip_footer=0, names=['col1', 'col2', 'col3', 'col4', 'col5', 'col6', 'col7', 'col8'])

在我的系統上，時間總計約為0.1秒

這樣做的一個問題是，非數值的任何值都將簡單地替換為nan ，而這可能不是您想要的值

Python：哪種是讀取大型.csv文件的最佳方法？

問題描述

1 個解決方案

解決方案1
-2 2016-11-30 17:41:24

Python：哪種是讀取大型.csv文件的最佳方法？

問題描述

1 個解決方案

解決方案1 -2 2016-11-30 17:41:24

解決方案1
-2 2016-11-30 17:41:24