[英]Delete unwanted records from BIG File using Python or Map reduce
我在源文件中有 37 M 记录,但目标只有 3000 条记录,我想删除额外的记录,只需要那 3000 条记录。 任何最快的 Python 解决方案?
我不知道是删除你不想要的还是只保留你想要的更容易,因为你没有提供任何样本数据。 无论如何,我只是测试了下面的脚本,它对我来说很好用。
with open("C:\\path_here\\test.txt","r+") as f:
new_f = f.readlines()
f.seek(0)
for line in new_f:
if "return_3y" in line:
f.write(line)
f.truncate()
在一个 5MB 的文件上,完成这项工作只需要一秒钟。 对于您的 37MB 文件,我猜它需要几秒钟才能完成所有操作。 还不错...
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.