如何在python中迭代大型CSV文件时轻松获取内存？

Question

我目前有一个200k行的csv文件，每行包含80个条目，用逗号分隔。 我尝试用open（）打开csv文件，并将数据附加到2-D python列表中。 当我尝试遍历该列表并将80个条目附加到单个列表时，计算机会冻结。 我的代码是否会产生某种内存问题？ 我应该批量处理我的数据还是有更有效的方法来完成我想要做的事情？

简而言之：打开csv，通过200k条目并从[1,2,3,4,5，...，80]，[1，...，80]，...... 200k转换它们 - > [ 12345 ... 80]。 [1 ... 80]，200k

import csv


# create empty shells
raw_data = []
concatenate_data = []


def get_data():
    counter = 1

    # open the raw data file and put it into a list
    with open('raw_data_train.csv', 'r') as file:
        reader = csv.reader(file, dialect='excel')

        for row in reader:
            print('\rCurrent item: {0}'.format(counter), end='', flush=True)
            raw_data.append(row)
            counter += 1

    print('\nReading done')


def format_data():
    counter = 1
    temp = ''

    # concatenate the separated letters for each string in the csv file
    for batch in raw_data:
        for letters in batch:
            temp += letters
        concatenate_data.append(temp)
        print('\rCurrent item: {0}'.format(counter), end='', flush=True)
        counter += 1

    print('\nTransforming done')
    print(concatenate_data[0:10])

Answer 1

format_data()例程必然会占用你的CPU很多：

使用string连接，这是次优的而不是其他方法（ StringIO ， str.join ）
在整个例程中使用相同的temp变量
在循环中附加temp （基本上附加一个越来越大的字符串）。

我想你只想这样做：将每行的所有文本附加为1个字符串，不加空格。 使用str.join避免字符串连接要快得多：

for batch in raw_data:
    concatenate_data.append("".join(batch))

如果你可以摆脱印刷品，甚至更快：

 concatenate_data = ["".join(batch) for batch in raw_data]

如何在python中迭代大型CSV文件时轻松获取内存？

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-12-26 17:47:54

如何在python中迭代大型CSV文件时轻松获取内存？

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-12-26 17:47:54

解决方案1
1 已采纳 2016-12-26 17:47:54