Python：將分組均值分配給1-D數組

Question

假設我有2個數組：

x    = [2, 4, 1, 7, 3, 9, 2, 5, 5, 1]
flag = [0, 1, 0, 2, 1, 1, 2, 0, 0, 2]

flag數組指示x每個元素屬於哪個“組”。 我怎么能代替的每個元素x （有，比如，標志值k通過的所有元素的平均值） x ，其相應的flag值也k ？

經過這樣的轉換后， x看起來像：

x    = [3.25, 5.33, 3.25, 3.33, 5.33, 5.33, 3.33, 3.25, 3.25, 3.33]

（我可以使用循環來實現這一點，但效率很低。）

Answer 1

您可以使用np.bincount來計算分組方式：

import numpy as np
x    = np.array([2, 4, 1, 7, 3, 9, 2, 5, 5, 1])
flag = np.array([0, 1, 0, 2, 1, 1, 2, 0, 0, 2])
total = np.bincount(flag, weights=x)
count = np.bincount(flag)
means = (total/count)[flag]

產量

array([ 3.25      ,  5.33333333,  3.25      ,  3.33333333,  5.33333333,
        5.33333333,  3.33333333,  3.25      ,  3.25      ,  3.33333333])

對於更通用的分組統計信息，還有scipy.stats.binned_statistic函數。 它可以計算分組平均值，中位數，計數，總和，最小值，最大值統計量。 它還可以接受統計信息的用戶定義函數，但性能（當然）比內置統計信息慢。

Answer 2

一種選擇是使用熊貓：

import pandas as pd
x    = [2, 4, 1, 7, 3, 9, 2, 5, 5, 1]
flag = [0, 1, 0, 2, 1, 1, 2, 0, 0, 2]
s = pd.Series(x,index=flag)
s.groupby(level=0).transform('mean').tolist()

輸出：

[3.25,
 5.333333333333333,
 3.25,
 3.3333333333333335,
 5.333333333333333,
 5.333333333333333,
 3.3333333333333335,
 3.25,
 3.25,
 3.3333333333333335]

Answer 3

>>> def grouped_mean(data, flags):
...     flag_set = set(flags)
...     flags = np.asarray(flags)
...     data = np.array(data)
...     for s in flag_set:
...         m = (flags == s)
...         data[m] = np.mean(data[m])
...     return data
... 

>>> grouped_mean(x, flag)
array([ 3.25      ,  5.33333333,  3.25      ,  3.33333333,  5.33333333,
        5.33333333,  3.33333333,  3.25      ,  3.25      ,  3.33333333])

Python：將分組均值分配給1-D數組

問題描述

3 個解決方案

解決方案1
5 2017-07-05 17:19:35

解決方案2
3 已采納 2017-07-05 17:09:56

解決方案3
2 2017-07-05 17:25:20

Python：將分組均值分配給1-D數組

問題描述

3 個解決方案

解決方案1 5 2017-07-05 17:19:35

解決方案2 3 已采納 2017-07-05 17:09:56

解決方案3 2 2017-07-05 17:25:20

解決方案1
5 2017-07-05 17:19:35

解決方案2
3 已采納 2017-07-05 17:09:56

解決方案3
2 2017-07-05 17:25:20