在Python Panda中读取大型CSV文件

Question

我有一个很大的数据集，csv格式的数据集接近4 GB。 但是我不需要整个数据集，我需要一些特定的列。 是否可以读取某些特定列而不是使用Python Panda读取整个数据集？ 会增加读取文件的速度吗？

非常感谢您的建议。

Answer 1

如果您有4 GB的内存，请不必担心（编写耗费较少内存的解决方案花费的时间是不值得的）。 使用pd.read_csv读取整个数据集，然后将其子集pd.read_csv所需的列。 如果没有足够的内存，并且确实需要逐行（即逐行）读取文件，请修改此代码以仅将感兴趣的列保留在内存中。

如果您有足够的内存，而您的问题是使用这种格式的多个文件，那么我建议您使用multiprocessing程序包来并行化任务。

from muliprocessing import Pool
pool = Pool(processes = your_processors_n)
dataframeslist = pool.map(your_regular_expression_readin_func, [df1, df2, ... dfn])

在Python Panda中读取大型CSV文件

问题描述

1 个解决方案

解决方案1
0 2015-05-15 03:47:12

在Python Panda中读取大型CSV文件

问题描述

1 个解决方案

解决方案1 0 2015-05-15 03:47:12

解决方案1
0 2015-05-15 03:47:12