Python-读取大量表格数据的有效方法

Question

我有一个包含大数字表的文件，大小大约为300 MB。 我想用Python阅读。

数据如下所示：

-200 1 11097.4 16414.2 1
-200 1 11197.4 16414.8 1
-200 1 11297.4 16415.4 1
-200 1 11397.4 16416 1
-200 1 11497.4 16416.5 1
-200 1 11597.4 16417.1 1
-200 1 11697.4 16417.7 1

Python代码如下所示：

    with open(filename) as f:
        nrow, ncol= [int(x) for x in next(f).split()] 
        for k in range(2):
            rr = []
            for i in range(nrow+1):
                row = []
                for j in range(ncol+1):
                    a = next(f).split()                     
                    row.append([int(a[0]), int(a[1]), float(a[2]), float(a[4])])
                rr.append(row)          
            summary.append(rr)

这很慢； 读取文件大约需要60秒钟。 我想把时间降到10秒以内。 使它更快一点的最简单方法是什么？

如果有帮助，我非常乐意更改数据文件格式。

Answer 1

使用大熊猫。 这可能是重复的，所以也请查看这些答案

code.py

import pandas as pd
import numpy as np

df = pd.read_csv("large_file.txt", sep="\s")
np.save("large_file.npz", df.values)

with load('large_file.npz') as data:
    print(data.shape)

Python-读取大量表格数据的有效方法

问题描述

1 个解决方案

解决方案1
3 已采纳 2019-09-16 17:24:13

code.py

Python-读取大量表格数据的有效方法

问题描述

1 个解决方案

解决方案1 3 已采纳 2019-09-16 17:24:13

code.py

解决方案1
3 已采纳 2019-09-16 17:24:13