如何從python中的txt文件中刪除帶有重復子字符串的行？

Question

我正在嘗試從包含重復子字符串的 .txt 文件中刪除行。 假設我有這樣的行：

aaaaaa, something.... 
bbbbbb, something differet.. 
cccccc, some other text.. 
cccccc, again different text.. 
dddddd, again some other text..
eeeeee, some other text... 
etc..

我想過濾掉以相同子字符串（前 N 個字符）開頭的所有行，以便只有一個（第一個）行以它開頭。 這些我想復制到一個新的txt文件。

所以在上面的例子中，前三行將被復制，第四行將被跳過，其余的將被復制。

我想復制所有行，而不僅僅是我正在檢查的子字符串

這是我根據我的發現寫的

lines_seen = set()
outfile = open(outfile, "w")

for line in open(infile, "r"):
    string_to_compare = line[0:N] #save the substring into a variable
    if line.startswith(string_to_compare) not in lines_seen:
        outfile.write(line)
        lines_seen.add(line)
outfile.close()

上面的這段代碼實際上將 outfile 中的所有行復制到 infile 中，因此沒有進行過濾。

誰能告訴我錯誤在哪里或如何使它起作用？

Answer 1

如果只對前 60 個字符感興趣，你應該只在你的集合中存儲這個切片（ lines_see.add(string_to_compare) ）並且你的檢查應該更改為if string_to_compare not in lines_seen: 。

如何從python中的txt文件中刪除帶有重復子字符串的行？

問題描述

1 個解決方案

解決方案1
1 2018-07-13 17:05:10

如何從python中的txt文件中刪除帶有重復子字符串的行？

問題描述

1 個解決方案

解決方案1 1 2018-07-13 17:05:10

解決方案1
1 2018-07-13 17:05:10