從字符串列表中刪除重復項和子字符串

Question

假設我有一個列表：

a = [
    'www.google.com',
    'google.com',
    'tvi.pt',
    'ubs.ch',
    'google.it',
    'www.google.com'
]

我想刪除重復項和子字符串以保留如下列表：

b = [
    'www.google.com',
    'tvi.pt',
    'ubs.ch',
    'google.it'
]

你知道一個有效的方法嗎？

目標是保留更長的字符串，這就是為什么www.google.com優於google.com的原因。

Answer 1

可以編輯此解決方案以更好地滿足您的需求。 編輯函數get_domain以更好地選擇分組條件*和choose_item function 以更好地選擇組中的最佳項目。

from itertools import groupby

a = ['www.google.com', 'google.com', 'tvi.pt', 'ubs.ch', 'google.it', 'www.google.com']

def get_domain(url):
    # Example: 'www.google.com' -> 'google.com'
    return '.'.join(url.split('.')[-2:])

def choose_item(iterable):
    # Ex. input: ['www.google.com', 'google.com',  'www.google.com']
    # Ex. output: 'www.google.com' (longest string)
    return sorted(iterable, key=lambda x: -len(x))[0]

results = []
for domain,grp in groupby(sorted(a, key=get_domain), key=get_domain):
    results.append(choose_item(grp))

print(results)

Output：

['www.google.com', 'google.it', 'tvi.pt', 'ubs.ch']

_{*另一個答案建議使用 tld 庫。}

Answer 2

如果您正在尋找的是唯一一級域的列表，給定一個任意的 URL 列表，請查看tld模塊。 它會讓你的事情變得更容易。

根據文檔，這里有一個片段，您可以根據自己的需要進行調整：

from tld import get_fld

urls = [
    'www.google.com',
    'google.com',
    'tvi.pt',
    'ubs.ch',
    'google.it',
    'www.google.com'
]

unique_domains =  list({
    get_fld(url, fix_protocol=True) for url in urls
})

上面的代碼將unique_domains設置為：

['ubs.ch', 'google.it', 'tvi.pt', 'google.com']

Answer 3

您可以按如下方式刪除重復項：

f = list(dict.fromkeys(a))

這將過濾掉重復的“www.google.com”，但不會過濾掉子字符串。 正如 Caveman 船長在他的評論中所寫，這需要更多的澄清。

Answer 4

def remove_duplicates_and_substrings(input):
output = []
for i in input:
    if i not in output:
        if not any(i in s for s in output):
            output.append(i)
return output

它可能不是最好的方法，但它確實可以按照您的意願進行操作。 它首先檢查輸入列表中的字符串是否不在 output 列表中。 然后它檢查它的任何部分是否已經在 output 字符串之一中。 如果不是這種情況，它將把它添加到 output 列表中。

從字符串列表中刪除重復項和子字符串

問題描述

4 個解決方案

解決方案1
2 已采納

解決方案2
1 2022-12-07 14:52:56

解決方案3
0 2022-12-07 14:39:21

解決方案4
0 2022-12-07 14:41:41

從字符串列表中刪除重復項和子字符串

問題描述

4 個解決方案

解決方案1 2 已采納

解決方案2 1 2022-12-07 14:52:56

解決方案3 0 2022-12-07 14:39:21

解決方案4 0 2022-12-07 14:41:41

解決方案1
2 已采納

解決方案2
1 2022-12-07 14:52:56

解決方案3
0 2022-12-07 14:39:21

解決方案4
0 2022-12-07 14:41:41