按其中某些元素的频率过滤 numpy 数组

Question

我有一个 numpy 数组和一个类似于下面的字典：

arr1 = np.array([['a1','x'],['a2','x'],['a3','y'],['a4','y'],['a5','z']])
d = {'x':2,'z':1,'y':1,'w':2}

对于d每个键值对(k,v) ， k在其第二列的arr1中应该恰好出现v次。 显然，这不会发生在这里。

所以我想要做的是，从arr1 ，我想创建另一个数组，其中第二列中的每个元素都准确地出现根据d应该出现的次数。 换句话说，我想要的结果是：

np.array([['a1','x'],['a2','x'],['a5','z']])

我可以使用列表理解获得我想要的结果：

ans = [[x1,x2] for x1,x2 in arr1 if np.count_nonzero(arr1==x2)==d[x2]]

但我想知道是否可以仅使用 numpy 来做到这一点。

Answer 1

这做你想要的：

import numpy as np

arr1 = np.array([['a1', 'x'], ['a2', 'x'], ['a3', 'y'], ['a4', 'y'], ['a5', 'z']])
d = {'x': 2, 'z': 1, 'y': 1, 'w': 2}

# get the actual counts of values in arr1
counts = dict(zip(*np.unique(arr1[:, 1], return_counts=True)))
# determine what values to keep, as their count matches the desired count
keep = [x for x in d if x in counts and d[x] == counts[x]]
# filter down the array
result = arr1[list(map(lambda x: x[1] in keep, arr1))]

在 numpy 中很可能有一种更优化的方法来做到这一点，但我不知道你申请的集合有多大，或者你需要多久这样做一次，以说寻找它是否值得。

编辑：请注意，您需要扩大规模以决定什么是好的解决方案。 您的原始解决方案非常适合玩具示例，它的表现优于这两个答案。 但是，如果您扩展到可能更现实的工作负载，@NewbieAF 提供的 numpy 解决方案可以轻松击败其他解决方案：

from random import randint
from timeit import timeit
import numpy as np


def original(arr1, d):
    return [[x1, x2] for x1, x2 in arr1 if np.count_nonzero(arr1 == x2) == d[x2]]


def f1(arr1, d):
    # get the actual counts of values in arr1
    counts = dict(zip(*np.unique(arr1[:, 1], return_counts=True)))
    # determine what values to keep, as their count matches the desired count
    keep = [x for x in d if x in counts and d[x] == counts[x]]
    # filter down the array
    return arr1[list(map(lambda x: x[1] in keep, arr1))]


def f2(arr1, d):
    # create arrays from d
    keys, vals = np.array(list(d.keys())), np.array(list(d.values()))
    # count the unique elements in arr1[:,1]
    unqs, cts = np.unique(arr1[:,1], return_counts=True)

    # only keep track of elements that appear in arr1
    mask = np.isin(keys,unqs)
    keys, vals = keys[mask], vals[mask]

    # sort the unique values and corresponding counts according to keys
    idx1 = np.argsort(np.argsort(keys))
    idx2 = np.argsort(unqs)
    unqs, cts = unqs[idx2][idx1], cts[idx2][idx1]

    # filter values by whether the counts match
    correct = unqs[vals==cts]

    return arr1[np.isin(arr1[:,1],correct)]


def main():
    arr1 = np.array([['a1', 'x'], ['a2', 'x'], ['a3', 'y'], ['a4', 'y'], ['a5', 'z']])
    d = {'x': 2, 'z': 1, 'y': 1, 'w': 2}

    print(timeit(lambda: original(arr1, d), number=10000))
    print(timeit(lambda: f1(arr1, d), number=10000))
    print(timeit(lambda: f2(arr1, d), number=10000))

    counts = [randint(1, 3) for _ in range(10000)]
    arr1 = np.array([['x', f'{n}'] for n in range(10000) for _ in range(counts[n])])
    d = {f'{n}': randint(1, 3) for n in range(10000)}

    print(timeit(lambda: original(arr1, d), number=10))
    print(timeit(lambda: f1(arr1, d), number=10))
    print(timeit(lambda: f2(arr1, d), number=10))

main()

结果：

0.14045359999999998
0.2402685
0.5027185999999999
46.7569239
5.893172499999999
0.08729539999999503

numpy解决方案在玩具示例上很慢，但在大输入上要快numpy数量级。 您的解决方案看起来不错，但是在扩展时输给了非 numpy 解决方案，避免了额外的调用。

考虑问题的大小。 如果问题很小，您应该选择自己的解决方案，以提高可读性。 如果问题是中等规模的，您可能会选择我的来提高性能。 如果问题很大（无论是大小还是使用频率），您应该选择全 numpy 解决方案，牺牲可读性来提高速度。

Answer 2

在np.argsort() ，我找到了一个纯粹的 numpy 解决方案。 只需要根据相同元素在d.values()的数组版本中的位置对arr1的第二行进行排序。

arr1 = np.array([['a1','x'],['a2','x'],['a3','y'],['a4','y'],['a5','z']])
d = {'x':2,'z':1,'y':1,'w':2}

# create arrays from d
keys, vals = np.array(list(d.keys())), np.array(list(d.values()))
# count the unique elements in arr1[:,1]
unqs, cts = np.unique(arr1[:,1], return_counts=True)

# only keep track of elements that appear in arr1
mask = np.isin(keys,unqs)
keys, vals = keys[mask], vals[mask]

# sort the unique values and corresponding counts according to keys
idx1 = np.argsort(np.argsort(keys))
idx2 = np.argsort(unqs)
unqs, cts = unqs[idx2][idx1], cts[idx2][idx1]

# filter values by whether the counts match
correct = unqs[vals==cts]

# keep subarray where the counts match
ans = arr1[np.isin(arr1[:,1],correct)]

print(ans)
# [['a1' 'x']
#  ['a2' 'x']
#  ['a5' 'z']]

按其中某些元素的频率过滤 numpy 数组

问题描述

2 个解决方案

解决方案1
1 2021-07-01 03:27:21

解决方案2
0 2021-07-01 14:55:53

按其中某些元素的频率过滤 numpy 数组

问题描述

2 个解决方案

解决方案1 1 2021-07-01 03:27:21

解决方案2 0 2021-07-01 14:55:53

解决方案1
1 2021-07-01 03:27:21

解决方案2
0 2021-07-01 14:55:53