繁体 English 中英

从已排序的超大文件（每个200G）列表中删除重复项的最佳方法？

[英]The optimal way to remove duplicates from a list of sorted very large files (200G each)?

原文 2014-12-08 09:19:58 7 1 python/ linux/ large-files/ duplicate-removal

其他先前提出的问题没有回答我的问题！

我每个都有一系列大文件（200 G），每个文件都经过排序，并包含如下所示的重复项：

 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100| b.ac
 50.21.180.100| b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100| c.ac
 50.21.180.100| c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100| d.ac

预期产量：

50.21.180.100|a.ac
50.21.180.100|b.ac
50.21.180.100|c.ac
50.21.180.100|d.ac

是否有任何机构建议删除这些重复项的最佳方法（在时间和记忆方面）？ 是Linux bash还是Python或其他语言？

1 个解决方案

首先删除空间，然后运行uniq：

cat infile.txt | tr -d " " | uniq > outfile.txt

在 Python 中从非常大的文本文件中删除重复项的更快方法？

[英]Faster way to remove duplicates from a very large text file in Python?

从非常大（密码）列表聚合和删除重复项的有效方法

[英]Efficient way to aggregate and remove duplicates from very large (password) lists

将元素存储在排序列表中的最佳方式

[英]Optimal way to store an element in a sorted list

从排序数组中删除重复项

[英]Remove Duplicates from Sorted Array

从大列表中删除重复项，但如果确实存在则删除两者？

[英]Remove duplicates from large list but remove both if it does exist?

根据每个列表的子集从列表列表中删除重复项

[英]Remove duplicates from a list of list based on a subset of each list

使用每个条目实例变量删除列表中重复项的最快方法

[英]Fastest way to remove duplicates in a list using each entries instance variables

Python：高效，优雅地从大型列表中删除所有重复项

[英]Python: Remove all duplicates from a large list of lists efficiently and elegantly

尝试从大量对象中删除重复项，并保留某些对象

[英]Trying to remove duplicates from large list of objects, keep certain one

如何有效地从 Python 的大列表中删除重复项？

[英]How can I efficiently remove duplicates from a large list in Python?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 Python 中从非常大的文本文件中删除重复项的更快方法？从非常大（密码）列表聚合和删除重复项的有效方法将元素存储在排序列表中的最佳方式从排序数组中删除重复项从大列表中删除重复项，但如果确实存在则删除两者？根据每个列表的子集从列表列表中删除重复项使用每个条目实例变量删除列表中重复项的最快方法 Python：高效，优雅地从大型列表中删除所有重复项尝试从大量对象中删除重复项，并保留某些对象如何有效地从 Python 的大列表中删除重复项？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM