[英]Python: Assigning grouped mean to 1-D array
假設我有2個數組:
x = [2, 4, 1, 7, 3, 9, 2, 5, 5, 1]
flag = [0, 1, 0, 2, 1, 1, 2, 0, 0, 2]
flag
數組指示x
每個元素屬於哪個“組”。 我怎么能代替的每個元素x
(有,比如,標志值k
通過的所有元素的平均值) x
,其相應的flag
值也k
?
經過這樣的轉換后, x
看起來像:
x = [3.25, 5.33, 3.25, 3.33, 5.33, 5.33, 3.33, 3.25, 3.25, 3.33]
(我可以使用循環來實現這一點,但效率很低。)
您可以使用np.bincount
來計算分組方式:
import numpy as np
x = np.array([2, 4, 1, 7, 3, 9, 2, 5, 5, 1])
flag = np.array([0, 1, 0, 2, 1, 1, 2, 0, 0, 2])
total = np.bincount(flag, weights=x)
count = np.bincount(flag)
means = (total/count)[flag]
產量
array([ 3.25 , 5.33333333, 3.25 , 3.33333333, 5.33333333,
5.33333333, 3.33333333, 3.25 , 3.25 , 3.33333333])
對於更通用的分組統計信息,還有scipy.stats.binned_statistic
函數 。 它可以計算分組平均值,中位數,計數,總和,最小值,最大值統計量。 它還可以接受統計信息的用戶定義函數,但性能(當然)比內置統計信息慢。
一種選擇是使用熊貓:
import pandas as pd
x = [2, 4, 1, 7, 3, 9, 2, 5, 5, 1]
flag = [0, 1, 0, 2, 1, 1, 2, 0, 0, 2]
s = pd.Series(x,index=flag)
s.groupby(level=0).transform('mean').tolist()
輸出:
[3.25,
5.333333333333333,
3.25,
3.3333333333333335,
5.333333333333333,
5.333333333333333,
3.3333333333333335,
3.25,
3.25,
3.3333333333333335]
>>> def grouped_mean(data, flags):
... flag_set = set(flags)
... flags = np.asarray(flags)
... data = np.array(data)
... for s in flag_set:
... m = (flags == s)
... data[m] = np.mean(data[m])
... return data
...
>>> grouped_mean(x, flag)
array([ 3.25 , 5.33333333, 3.25 , 3.33333333, 5.33333333,
5.33333333, 3.33333333, 3.25 , 3.25 , 3.33333333])
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.