计算嵌套列表中的唯一元组

Question

我有一个2D数组，其中每个元素都是一对两个标记，例如[“ NOUN”，“ VERB”]，并且我想统计每个唯一对在大型数据集中出现的次数。

到目前为止，我已经尝试使用defaultdict（int）和Counter（）轻松地添加元素（如果以前未找到），或者如果找到则将值增加1。

dTransition = Counter()
# dTransition = defaultdict(int)

# <s> is a start of sentence tag
pairs = [[('<s>', 'NOUN')], [('CCONJ', 'NOUN')], [('NOUN', 'SCONJ')], [('SCONJ', 'NOUN')]]

for pair in pairs:
      dTransition[pairs] += 1

这不起作用，因为它不接受两个参数。 所以我想知道是否有一种简单的方法来检查字典是否已经存在作为2D数组的键，如果存在，则将值增加1。

Answer 1

考虑到与列表不同，元组是可哈希的 ，因此您需要展平列表。 一个简单的选项是使用itertools.chain ，然后使用元组列表构建一个Counter ：

from itertools import chain
Counter(chain(*pairs))

输出量

Counter({('<s>', 'NOUN'): 1, ('CCONJ', 'NOUN'): 1, 
         ('NOUN', 'SCONJ'): 1, ('SCONJ', 'NOUN'): 1})

Answer 2

您可以使用numpy数组通过已内置的函数执行此操作。

import numpy as np

#convert array to numpy array
pairs= np.array(pairs)

#pairs.unique() returns an array with only the unique elements
#len() returns the length(count) of unique pairs
count= len(pairs.unique())

Answer 3

您使用defaultdict解决方案是正确的，但是您必须将两个值作为字典关键字的元组插入。 在您的示例中，元组始终是列表的第一个元素：

import collections 
dTransition = collections.defaultdict(int)

# <s> is a start of sentence tag
pairs = [[('<s>', 'NOUN')], [('CCONJ', 'NOUN')], [('NOUN', 'SCONJ')], [('SCONJ', 'NOUN')],[('SCONJ', 'NOUN')]]

for pair in pairs:
      dTransition[pair[0]] += 1

然后就可以了

计算嵌套列表中的唯一元组

问题描述

3 个解决方案

解决方案1
4 已采纳 2019-03-29 13:58:23

解决方案2
1 2019-03-29 13:59:53

解决方案3
0 2019-03-29 14:00:41

计算嵌套列表中的唯一元组

问题描述

3 个解决方案

解决方案1 4 已采纳 2019-03-29 13:58:23

解决方案2 1 2019-03-29 13:59:53

解决方案3 0 2019-03-29 14:00:41

解决方案1
4 已采纳 2019-03-29 13:58:23

解决方案2
1 2019-03-29 13:59:53

解决方案3
0 2019-03-29 14:00:41