Python：在沒有排序列表的情況下使用漸進編號重命名列表中的重復項

Question

給出這樣的列表：

mylist = ["name", "state", "name", "city", "name", "zip", "zip"]

我想通過附加一個數字來重命名重復項以獲得以下結果：

mylist = ["name1", "state", "name2", "city", "name3", "zip1", "zip2"]

我不想更改原始列表的順序。 為這個相關的 Stack Overflow 問題建議的解決方案對列表進行了排序，我不想這樣做。

Answer 1

我對map和lambda解決方案：

print map(lambda x: x[1] + str(mylist[:x[0]].count(x[1]) + 1) if mylist.count(x[1]) > 1 else x[1], enumerate(mylist))

更傳統的形式

newlist = []
for i, v in enumerate(mylist):
    totalcount = mylist.count(v)
    count = mylist[:i].count(v)
    newlist.append(v + str(count + 1) if totalcount > 1 else v)

最后一個

[v + str(mylist[:i].count(v) + 1) if mylist.count(v) > 1 else v for i, v in enumerate(mylist)]

Answer 2

這就是我要做的。 編輯：因為人們似乎喜歡這個答案，所以我將此寫入了一個更通用的實用函數。

mylist = ["name", "state", "name", "city", "name", "zip", "zip"]
check = ["name1", "state", "name2", "city", "name3", "zip1", "zip2"]
copy = mylist[:]  # so we will only mutate the copy in case of failure

from collections import Counter # Counter counts the number of occurrences of each item
from itertools import tee, count

def uniquify(seq, suffs = count(1)):
    """Make all the items unique by adding a suffix (1, 2, etc).

    `seq` is mutable sequence of strings.
    `suffs` is an optional alternative suffix iterable.
    """
    not_unique = [k for k,v in Counter(seq).items() if v>1] # so we have: ['name', 'zip']
    # suffix generator dict - e.g., {'name': <my_gen>, 'zip': <my_gen>}
    suff_gens = dict(zip(not_unique, tee(suffs, len(not_unique))))  
    for idx,s in enumerate(seq):
        try:
            suffix = str(next(suff_gens[s]))
        except KeyError:
            # s was unique
            continue
        else:
            seq[idx] += suffix

uniquify(copy)
assert copy==check  # raise an error if we failed
mylist = copy  # success

如果您想在每個計數之前添加下划線，則可以執行以下操作：

>>> mylist = ["name", "state", "name", "city", "name", "zip", "zip"]
>>> uniquify(mylist, (f'_{x!s}' for x in range(1, 100)))
>>> mylist
['name_1', 'state', 'name_2', 'city', 'name_3', 'zip_1', 'zip_2']

...或者如果您想使用字母代替：

>>> mylist = ["name", "state", "name", "city", "name", "zip", "zip"]
>>> import string
>>> uniquify(mylist, (f'_{x!s}' for x in string.ascii_lowercase))
>>> mylist
['name_a', 'state', 'name_b', 'city', 'name_c', 'zip_a', 'zip_b']

注意：這不是最快的算法。 為此，請參考ronakg的答案。 上面函數的優點是易於理解和閱讀，除非您的列表非常大，否則您不會看到很多性能差異。

編輯：這是我最初的回答，但是不保留順序，它使用.index方法，這是次優的（如DTing的回答所述）。 請參閱queezz的答案，以獲取可保留秩序的漂亮“兩線”。

[s + str(suffix) if num>1 else s for s,num in Counter(mylist).items() for suffix in range(1, num+1)]
# Produces: ['zip1', 'zip2', 'city', 'state', 'name1', 'name2', 'name3']

Answer 3

因為count是O(n) ，所以在每個元素上調用count任何方法都將導致O(n^2) O(n) 。 您可以執行以下操作：

# not modifying original list
from collections import Counter

mylist = ["name", "state", "name", "city", "name", "zip", "zip"]
counts = {k:v for k,v in Counter(mylist).items() if v > 1}
newlist = mylist[:]

for i in reversed(range(len(mylist))):
    item = mylist[i]
    if item in counts and counts[item]:
        newlist[i] += str(counts[item])
        counts[item]-=1
print(newlist)

# ['name1', 'state', 'name2', 'city', 'name3', 'zip1', 'zip2']

# modifying original list
from collections import Counter

mylist = ["name", "state", "name", "city", "name", "zip", "zip"]
counts = {k:v for k,v in Counter(mylist).items() if v > 1}      

for i in reversed(range(len(mylist))):
    item = mylist[i]
    if item in counts and counts[item]:
        mylist[i] += str(counts[item])
        counts[item]-=1
print(mylist)

# ['name1', 'state', 'name2', 'city', 'name3', 'zip1', 'zip2']

這應該是O(n) 。

其他提供的答案：

每個元素mylist.index(s)導致O(n^2)

mylist = ["name", "state", "name", "city", "name", "zip", "zip"]

from collections import Counter
counts = Counter(mylist)
for s,num in counts.items():
    if num > 1:
        for suffix in range(1, num + 1):
            mylist[mylist.index(s)] = s + str(suffix)

每個元素的count(x[1])會導致O(n^2)
每個元素還與列表切片一起多次使用。

print map(lambda x: x[1] + str(mylist[:x[0]].count(x[1]) + 1) if mylist.count(x[1]) > 1 else x[1], enumerate(mylist))

基准測試：

http://nbviewer.ipython.org/gist/dting/c28fb161de7b6287491b

Answer 4

這是一個非常簡單的O(n)解決方案。 只需遍歷存儲列表中元素索引的列表即可。 如果我們之前看過此元素，請更早使用存儲的數據附加出現值。

這種方法通過僅創建一個更多的字典來解決問題。 避免前瞻，以免我們不創建臨時列表片。

mylist = ["name", "state", "name", "city", "city", "name", "zip", "zip", "name"]

dups = {}

for i, val in enumerate(mylist):
    if val not in dups:
        # Store index of first occurrence and occurrence value
        dups[val] = [i, 1]
    else:
        # Special case for first occurrence
        if dups[val][1] == 1:
            mylist[dups[val][0]] += str(dups[val][1])

        # Increment occurrence value, index value doesn't matter anymore
        dups[val][1] += 1

        # Use stored occurrence value
        mylist[i] += str(dups[val][1])

print mylist

# ['name1', 'state', 'name2', 'city1', 'city2', 'name3', 'zip1', 'zip2', 'name4']

Answer 5

里克·泰切（Rick Teachey）回答 “兩線”的列表理解版本：

from collections import Counter

m = ["name", "state", "name", "city", "name", "zip", "zip"]

d = {a:list(range(1, b+1)) if b>1 else '' for a,b in Counter(m).items()}
[i+str(d[i].pop(0)) if len(d[i]) else i for i in m]
#['name1', 'state', 'name2', 'city', 'name3', 'zip1', 'zip2']

Answer 6

您可以使用哈希表來解決此問題。 定義字典d。 鍵是字符串，值是（first_time_index_in_the_list，times_of_appearance）。 每次看到一個單詞時，只需檢查字典，如果值是2，請使用first_time_index_in_the_list將'1'附加到第一個元素，並將times_of_appearance附加到當前元素。 如果大於2，則只需將times_of_appearance附加到當前元素。

Answer 7

少花哨的東西。

from collections import defaultdict
mylist = ["name", "state", "name", "city", "name", "zip", "zip"]
finalList = []
dictCount = defaultdict(int)
anotherDict = defaultdict(int)
for t in mylist:
   anotherDict[t] += 1
for m in mylist:
   dictCount[m] += 1
   if anotherDict[m] > 1:
       finalList.append(str(m)+str(dictCount[m]))
   else:
       finalList.append(m)
print finalList

Answer 8

當心原始列表中已存在的更新值

如果起始列表已經包含項目"name2" ...

mylist = ["name", "state", "name", "city", "name", "zip", "zip", "name2"]

...然后mylist[2]不應在 function 運行時更新為"name2" ，否則將創建一個新的副本； 相反， function 應該跳轉到下一個可用的項目名稱"name3" 。

mylist_updated = ['name1', 'state', 'name3', 'city', 'name4', 'zip1', 'zip2', 'name2']

這是一個替代解決方案（可能會縮短和優化），其中包括一個遞歸 function，用於檢查原始列表中的這些現有項目。

mylist = ["name", "state", "name", "city", "name", "zip", "zip", "name2"]

def fix_dups(mylist, sep='', start=1, update_first=True):
    mylist_dups = {}
    #build dictionary containing val: [occurrences, suffix]
    for val in mylist:
        if val not in mylist_dups:
            mylist_dups[val] = [1, start - 1]
        else:
            mylist_dups[val][0] += 1
            
    #define function to update duplicate values with suffix, check if updated value already exists
    def update_val(val, num):
        temp_val = sep.join([str(x) for x in [val, num]])
        if temp_val not in mylist_dups:
            return temp_val, num
        else:
            num += 1
            return update_val(val, num)        
    
    #update list
    for i, val in enumerate(mylist):
        if mylist_dups[val][0] > 1:
            mylist_dups[val][1] += 1  
            if update_first or mylist_dups[val][1] > start:
                new_val, mylist_dups[val][1] = update_val(val, mylist_dups[val][1])
                mylist[i] = new_val

    return mylist
                
mylist_updated = fix_dups(mylist, sep='', start=1, update_first=True)
print(mylist_updated)
#['name1', 'state', 'name3', 'city', 'name4', 'zip1', 'zip2', 'name2']

如果您不想更改第一次出現的情況。

mylist = ["name", "state", "name", "city", "name", "zip", "zip", "name_2"]
             
mylist_updated = fix_dups(mylist, sep='_', start=0, update_first=False)
print(mylist_updated)
#['name', 'state', 'name_1', 'city', 'name_3', 'zip', 'zip_1', 'name_2']

Python：在沒有排序列表的情況下使用漸進編號重命名列表中的重復項

問題描述

8 個解決方案

解決方案1
14

解決方案2
13 已采納 2015-06-04 18:59:28

解決方案3
6 2015-06-04 18:03:14

其他提供的答案：

基准測試：

解決方案4
6 2015-06-04 18:51:50

解決方案5
2 2019-06-05 04:51:39

解決方案6
1 2015-06-04 17:43:00

解決方案7
1 2015-06-04 18:36:18

解決方案8
1 2021-08-25 03:04:11

Python：在沒有排序列表的情況下使用漸進編號重命名列表中的重復項

問題描述

8 個解決方案

解決方案1 14

解決方案2 13 已采納 2015-06-04 18:59:28

解決方案3 6 2015-06-04 18:03:14

其他提供的答案：

基准測試：

解決方案4 6 2015-06-04 18:51:50

解決方案5 2 2019-06-05 04:51:39

解決方案6 1 2015-06-04 17:43:00

解決方案7 1 2015-06-04 18:36:18

解決方案8 1 2021-08-25 03:04:11

解決方案1
14

解決方案2
13 已采納 2015-06-04 18:59:28

解決方案3
6 2015-06-04 18:03:14

解決方案4
6 2015-06-04 18:51:50

解決方案5
2 2019-06-05 04:51:39

解決方案6
1 2015-06-04 17:43:00

解決方案7
1 2015-06-04 18:36:18

解決方案8
1 2021-08-25 03:04:11