繁体   English   中英

使用 Python 或 Map reduce 从 BIG File 中删除不需要的记录

[英]Delete unwanted records from BIG File using Python or Map reduce

我在源文件中有 37 M 记录,但目标只有 3000 条记录,我想删除额外的记录,只需要那 3000 条记录。 任何最快的 Python 解决方案?

我不知道是删除你不想要的还是只保留你想要的更容易,因为你没有提供任何样本数据。 无论如何,我只是测试了下面的脚本,它对我来说很好用。

with open("C:\\path_here\\test.txt","r+") as f:
    new_f = f.readlines()
    f.seek(0)
    for line in new_f:
        if "return_3y" in line:
            f.write(line)
    f.truncate()

在一个 5MB 的文件上,完成这项工作只需要一秒钟。 对于您的 37MB 文件,我猜它需要几秒钟才能完成所有操作。 还不错...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM