在Python 2.7中讀取大文件會占用太多內存

Question

我使用.readline（）逐行解析文件，因為我需要找出將數據提取到列表中的開始位置，以及要暫停提取的結束點，然后重復直到文件結束。 我要讀取的文件格式如下：

blabla...
useless....
...
/sign/
data block(e.g. 10 cols x 1000 rows) 
... blank line 
/sign/    
data block(e.g. 10 cols x 1000 rows)
... blank line 
... 
EOF

讓我們將此文件稱為“ myfile”和我的python代碼段：

f=open('myfile','r')
blocknum=0 #number the data block
data=[]
while True:
       # find the extract begnning
       while not f.readline().startswith('/sign/'):pass
       # creat multidimensional list to store data block
       data=append([])
       blocknum +=1
       line=f.readline()

       while line.strip():
       # check if the line is a blank line, i.e the end of one block
               data[blocknum-1].append(["2.6E" %float(x) for x in line.split()])
               line = f.readline()
       print "Read Block %d" %blocknum
       if not f.readline(): break

運行結果是，讀取500M文件會消耗將近2GB的RAM，我無法弄清楚，有人幫忙！ 非常感謝！

Answer 1

您的代碼中有很多非Python歧義的行。 我不確定，但是認為您可以先按照以下方式修改代碼，然后根據內存使用情況再次檢查代碼：

data=[]

with open('myfile','r') as f:
    for line in f:
       # find the extract beginning - think you can add here more parameters to check
       if not line.strip() or line.startswith('/sign/'):
           continue
       data.append(["%2.6E" % float(x) for x in line.strip().split()])

但是我認為該代碼還將占用大量內存-但是，如果您真的不需要存儲從文件中讀取的所有數據，則可以修改代碼以使用生成器表達式並逐行處理文件數據-這樣可以節省我想你的記憶。

在Python 2.7中讀取大文件會占用太多內存

問題描述

1 個解決方案

解決方案1
0 2011-08-02 06:37:46

在Python 2.7中讀取大文件會占用太多內存

問題描述

1 個解決方案

解決方案1 0 2011-08-02 06:37:46

解決方案1
0 2011-08-02 06:37:46