从txt文件中删除重复的行

Question

我正在处理包含由行分隔的数据的大型文本文件（~20MB）。 大多数数据条目是重复的，我想删除这些重复只保留一个副本。

此外，为了使问题稍微复杂一些，重复一些条目并附加额外的信息。 在这种情况下，我需要保留包含额外信息的条目并删除旧版本。

我需要离开这个：

BOB 123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB EXTRA BITS

对此：

\n JIM 456 3DB AX\n DAVE 789 1DB\n BOB 123 1DB EXTRA BITS\n

NB。 最后的订单无关紧要。

有效的方法是什么？

我可以使用awk，python或任何标准的linux命令行工具。

谢谢。

Answer 1

如何（在Python中）：

prev = None
for line in sorted(open('file')):
  line = line.strip()
  if prev is not None and not line.startswith(prev):
    print prev
  prev = line
if prev is not None:
  print prev

如果发现内存使用存在问题，可以使用Unix sort （基于磁盘）进行排序作为预处理步骤，并更改脚本，使其不会将整个文件读入内存。

Answer 2

awk '{x[$1 " " $2 " " $3] = $0} END {for (y in x) print x[y]}'

如果需要指定不同文件的列数：

awk -v ncols=3 '
  {
    key = "";
    for (i=1; i<=ncols; i++) {key = key FS $i}
    if (length($0) > length(x[key])) {x[key] = $0}
  }
  END {for (y in x) print y "\t" x[y]}
'

Answer 3

这个或轻微的变体应该做：

finalData = {}
for line in input:
    parts = line.split()
    key,extra = tuple(parts[0:3]),parts[3:]
    if key not in finalData or extra:
        finalData[key] = extra

pprint(finalData)

输出：

{('BOB', '123', '1DB'): ['EXTRA', 'BITS'],
 ('DAVE', '789', '1DB'): [],
 ('JIM', '456', '3DB'): ['AX']}

Answer 4

无论具有额外位的线的位置如何，glenn jackman的答案的这种变化应该起作用：

awk '{idx = $1 " " $2 " " $3; if (length($0) > length(x[idx])) x[idx] = $0} END {for (idx in x) print x[idx]}' inputfile

要么

awk -v ncols=3 '
  {
    key = "";
    for (i=1; i<=ncols; i++) {key = key FS $i}
    if (length($0) > length(x[key])) x[key] = $0
  }
  END {for (y in x) print x[y]}
' inputfile

Answer 5

你必须定义一个函数来将你的行分成重要的位和额外的位，然后你可以这样做：

def split_extra(s):
    """Return a pair, the important bits and the extra bits."""
    return blah blah blah

data = {}
for line in open('file'):
    impt, extra = split_extra(line)
    existing = data.setdefault(impt, extra)
    if len(extra) > len(existing):
        data[impt] = extra

out = open('newfile', 'w')
for impt, extra in data.iteritems():
    out.write(impt + extra)

Answer 6

由于您需要额外的位，最快的方法是创建一组唯一的条目（排序-u会这样做），然后您必须将每个条目相互比较，例如

if x.startswith(y) and not y.startswith(x)

然后离开x并丢弃y。

Answer 7

如果你有perl并且只想保留最后一个条目：

cat file.txt | perl -ne 'BEGIN{%k={}} @_ = split(/ /);$kw = shift(@_); $kws{$kw} = "@_"; END{ foreach(sort keys %kws){ print "$_ $kws{$_}";} }' > file.new.txt

Answer 8

函数find_unique_lines适用于文件对象或字符串列表。

import itertools

def split_line(s):
    parts = s.strip().split(' ')
    return " ".join(parts[:3]), parts[3:], s

def find_unique_lines(f):
    result = {}
    for key, data, line in itertools.imap(split_line, f):
        if data or key not in result:
            result[key] = line
    return result.itervalues()

test = """BOB 123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB
JIM 456 3DB AX
DAVE 789 1DB
BOB 123 1DB EXTRA BITS""".split('\n')

for line in find_unique_lines(test):
        print line

BOB 123 1DB EXTRA BITS
JIM 456 3DB AX
DAVE 789 1DB

从txt文件中删除重复的行

问题描述

8 个解决方案

解决方案1
12 已采纳 2011-02-09 17:59:46

解决方案2
3 2011-02-09 18:00:12

解决方案3
2 2011-02-09 18:12:30

解决方案4
2 2011-02-09 19:53:00

解决方案5
1 2011-02-09 18:06:28

解决方案6
1 2011-02-09 18:06:55

解决方案7
1 2011-02-09 18:07:17

解决方案8
1 2011-02-09 18:22:01

从txt文件中删除重复的行

问题描述

8 个解决方案

解决方案1 12 已采纳 2011-02-09 17:59:46

解决方案2 3 2011-02-09 18:00:12

解决方案3 2 2011-02-09 18:12:30

解决方案4 2 2011-02-09 19:53:00

解决方案5 1 2011-02-09 18:06:28

解决方案6 1 2011-02-09 18:06:55

解决方案7 1 2011-02-09 18:07:17

解决方案8 1 2011-02-09 18:22:01

解决方案1
12 已采纳 2011-02-09 17:59:46

解决方案2
3 2011-02-09 18:00:12

解决方案3
2 2011-02-09 18:12:30

解决方案4
2 2011-02-09 19:53:00

解决方案5
1 2011-02-09 18:06:28

解决方案6
1 2011-02-09 18:06:55

解决方案7
1 2011-02-09 18:07:17

解决方案8
1 2011-02-09 18:22:01