繁体   English   中英

Python - 获取统计信息而不从输入文件创建变量/数据帧

[英]Python - getting statistics without creating variable/dataframe from input file

我有很多.txt文件,这些文件一起构成了一个太多的数据框,无法加载到变量中(因为没有足够的内存来将所有文件加载到pandas数据帧中)。 我可以通过阅读文件但不将它们加载到数据框/变量中以某种方式获得一些描述性统计数据吗? 怎么样? 谢谢!

为了获取信息,您可以选择带有glob的文件,将它们作为文本文件打开。 假设这是一个包含第一行列标题的CSV文件,您可以通过拆分第一行来检索键。 基于如何在Python中廉价地获得行数? ,计算剩余的行数。

import glob    

filenames = glob.glob('*.txt')
for filename in filenames:
    with open(filename) as f:
        keys = f.readline().rstrip().split(',')
        for i, l in enumerate(f):
            pass
    print("File:", filename, " keys:", keys," len:",i+1)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM