按组 ID 进行 Numpy 数组归一化：

Question

假设数据和标签是numpy 数组，如下所示：

import numpy as np
data=np.array([[0,4,5,6,8],[0,6,8,9],[1,9,5],[1,45,7],[1,8,3]]) #Note: length of each row is different 
labels=np.array([4,6,10,4,6])

data中每一行的第一个元素显示一个组的 id 。 我想根据组 id规范化（见下面的例子）标签：

例如，数据中的前两行有 id=0； 因此，它们的标签必须是：

normalized_labels[0]=labels[0]/(4+6)=0.4 
normalized_labels[1]=labels[1]/(4+6)=0.6

预期的输出应该是：

normalized_labels=[0.4,0.6,0.5,0.2,0.3]

我有一个天真的解决方案：

ids=[data[i][0] for i in range(data.shape[0])]
out=[]
for i in set(ids):
    ind=np.where(ids==i)
    out.extend(list(labels[ind]/np.sum(labels[ind])))
out=np.array(out)
print(out)

是否有任何 numpy 函数来执行这样的任务。 任何建议表示赞赏！

Answer 1

我发现了这种将labels转换为关于indices = [n[0] for n in data]的组总和的微妙方法。 在后面的解决方案中，不需要使用data ：

indices = [n[0] for n in data]
u, inv = np.unique(indices, return_inverse=True)
bincnt = np.bincount(inv, weights=labels)
sums = bincnt[inv]

现在总和是： array([10., 10., 20., 20., 20.]) 。 进一步很简单，如下所示：

normalized_labels = labels / sums

评论。 np.bincount计算标记为 0、1、2 的项目的加权总和...这就是为什么需要重新indices -> inv 。 例如， indices = [8, 6, 4, 3, 4, 6, 8, 8]应该映射到inv = [3, 2, 1, 0, 1, 2, 3, 3] 。

按组 ID 进行 Numpy 数组归一化：

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-09-13 19:47:23

按组 ID 进行 Numpy 数组归一化：

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-09-13 19:47:23

解决方案1
1 已采纳 2020-09-13 19:47:23