根據通用ID將元組列表中的項目分組

Question

我有一個很大的同義詞集（10000+）作為元組列表，看起來像這樣：

data = [
    (435347,'cat'),
    (435347,'feline'),
    (435347,'lion'),
    (6765756,'dog'),
    (6765756,'hound'),
    (6765756,'puppy'),
    (435347,'kitten'),
    (987977,'frog')
]

其中每個同義詞是由任意的共享ID標識，在此情況下435347 ， 6765756 ，和987977 。

我想編寫一個使數據看起來像這樣的函數：

processed_data = [
    (435347,'cat','feline','lion','kitten'),
    (6765756,'dog','hound','puppy'),
    (987977,'frog')
]

任何建議，不勝感激！

Answer 1

嘗試這個：

groups = {}

for x, y in data:
    group = groups.get(x, [])
    group.append(y)
    groups[x] = group

print(groups)

輸出：

{987977: ['frog'], 435347: ['cat', 'feline', 'lion', 'kitten'], 6765756: ['dog', 'hound', 'puppy']}

Answer 2

dictionary = {}
for val in data:
    id_, name = val
    if id_ in dictionary:
        dictionary[id_].append(name)
    else:
        dictionary[id_] = [id_, name]
print(list(dictionary.values()))
>>> [[435347, 'cat', 'feline', 'lion', 'kitten'], [6765756, 'dog', 'hound', 'puppy'], [987977, 'frog']]

Answer 3

您可以嘗試以下一種方法：

data = [(435347,'cat'),(435347,'feline'),(435347,'lion'),(6765756,'dog'),(6765756,'hound'),(6765756,'puppy'),(435347,'kitten'),(987977,'frog')]

dataset = set(i[0] for i in data)
processed_data = sorted([(tuple([i]) + tuple(j[1] for j in data if j[0]==i)) for i in dataset])
print(processed_data)

輸出：

[(435347, 'cat', 'feline', 'lion', 'kitten'), (987977, 'frog'), (6765756, 'dog', 'hound', 'puppy')]

Answer 4

這是另一種方法，是我對另一個問題的回答的修改。 您可以使用reduce和map實現此目的：

def reducer(x, y):
    if isinstance(x, dict):
        ykey, yval = y
        if ykey not in x:
            x[ykey] = [yval]
        else:
            x[ykey] += [yval]
        return x
    else:
        xkey, xval = x
        ykey, yval = y
        a = {xkey: [xval]}
        if ykey in a:
            a[ykey] += [yval]
        else:
            a[ykey] = [yval]
        return a

processed_data = map(lambda x: (x[0],) + tuple(x[1]), reduce(reducer, data).items())

輸出：

>>> print processed_data
[(987977, 'frog'),
 (435347, 'cat', 'feline', 'lion', 'kitten'),
 (6765756, 'dog', 'hound', 'puppy')]

說明

逐步分解：

reducer()函數通過關鍵字將項分組到字典中。 詞典的值是一個列表，該列表后附加同義詞值。

>>> print(reduce(reducer, data))
{435347: ['cat', 'feline', 'lion', 'kitten'],
 987977: ['frog'],
 6765756: ['dog', 'hound', 'puppy']}

我們在reduce()函數的輸出上調用.items() ，以將其作為tuples列表獲取：

>>> print(reduce(reducer, data).items())
[(987977, ['frog']),
 (435347, ['cat', 'feline', 'lion', 'kitten']),
 (6765756, ['dog', 'hound', 'puppy'])]

最后，我們調用map()將輸出轉換為所需的形式。

Answer 5

字典可能是更適合您的問題的解決方案：

data = [(435347,'cat'),(435347,'feline'),(435347,'lion'),(6765756,'dog'),(6765756,'hound'),(6765756,'puppy'),(435347,'kitten'),(987977,'frog')]
results = {}
for key, item in data:
    results.setdefault(key,[]).append(item)

輸出：

{435347: ['cat', 'feline', 'lion', 'kitten'],
 987977: ['frog'],
 6765756: ['dog', 'hound', 'puppy']}

setdefault適合您的情況。 如果鍵不存在，則基本上創建一個字典條目，如果鍵存在，則追加到條目。

Answer 6

有很多方法，其中一些是：

數據是：

data = [
    (435347,'cat'),
    (435347,'feline'),
    (435347,'lion'),
    (6765756,'dog'),
    (6765756,'hound'),
    (6765756,'puppy'),
    (435347,'kitten'),
    (987977,'frog')
]

Itertools groupby：

from itertools import groupby

print([tuple(i) for j,i in groupby(sorted(data),key=lambda x:x[0])])

集合默認字典：

from collections import defaultdict

d=defaultdict(list)
for i in data:
    d[i[0]].append(i)

print(d)

沒有任何模塊：

without_module={}
for i in data:
    if i[0] not in without_module:
        without_module[i[0]]=[i]
    else:
        without_module[i[0]].append(i)
print(without_module)

Answer 7

好吧，這是一個建議，所以如果錯了，請不要生氣-

因此，請嘗試創建輸入並創建for語句，然后使其從.txt文件或您喜歡的文件中讀取數據。 並在for下方創建一個if語句。

碼：

animal=input("Animal: ")
f=open("animal.txt")
for line in f:
    if genre in line.strip():
        print(line)

會親自提出建議，並將數據全部整理成陣列並執行\\ n

根據通用ID將元組列表中的項目分組

問題描述

7 個解決方案

解決方案1
2 已采納

解決方案2
1 2018-01-25 15:50:02

解決方案3
1 2018-01-25 16:01:02

解決方案4
0 2018-01-25 15:59:37

解決方案5
0 2018-01-25 16:25:03

解決方案6
0

解決方案7
-1 2018-01-25 15:45:26

根據通用ID將元組列表中的項目分組

問題描述

7 個解決方案

解決方案1 2 已采納

解決方案2 1 2018-01-25 15:50:02

解決方案3 1 2018-01-25 16:01:02

解決方案4 0 2018-01-25 15:59:37

解決方案5 0 2018-01-25 16:25:03

解決方案6 0

解決方案7 -1 2018-01-25 15:45:26

解決方案1
2 已采納

解決方案2
1 2018-01-25 15:50:02

解決方案3
1 2018-01-25 16:01:02

解決方案4
0 2018-01-25 15:59:37

解決方案5
0 2018-01-25 16:25:03

解決方案6
0

解決方案7
-1 2018-01-25 15:45:26