[英]Apply multiple aggregate functions on a list without using pandas
我有一個行列表,有兩個鍵列和 6 個值列。 我想計算值列的總和、平均值和最大值,基於每個 function 的列列表,使用itertools.groupby
分組,而不使用 pandas。
columns = [ID, date, row1, row2, row3, row4, row5, row6]
rows = [[1, date1, 1, 1, 1, 0, 0, 1],
[1, date1, 1, 2, 0, 1, 0, 1],
[2, date1, 1, 3, 0, 0, 1, 1],
[2, date1, 1, 3, 0, 0, 2, 1]]
ColSum = [row2, row6]
ColMean = [row1, row3]
ColMax = [row4, row5]
我期望計算的結果:
rows_result = [[1, date1, 1, 3, 0.5, 1, 0, 2],
[2, date1, 1, 6, 0, 0, 2, 2]]
我的代碼:
for cols in ColSum:
index = int(np.where(columns == cols)[0][0])
for k, g in itertools.groupby(rows[:, index], operator.itemgetter(0,1)):
res.append((list(k) +list(map(sum, zip(*[c[2:] for c in g])))))
for colm in colMean:
index = int(np.where(columns == colm)[0][0])
for k, g in itertools.groupby(rows[:, index], operator.itemgetter(0,1)):
res.append((list(k) +list(map(sum, zip(*[c[2:] for c in g])))))
但是,這不起作用。
在構建結果列表時分別計算每個分組列的結果非常復雜。 在ColSum
的初始構造之后,您必須編輯每個行級元素。 可以做到,但我覺得不符合函數式編程的精神。
相反,下面的程序使用ColFun
將 function 設置為應用於每一列(相當於第 1 行到第 6 行)。 在for
循環中,它遍歷每個組(如(1, 'date1')
),同時在列上使用請求的 function 應用程序構造 6 個值列的列表。
結果被附加到一個列表中,該列表與(稍微編輯的)所需結果相匹配。
import itertools
import operator
import numpy as np
columns = ['ID', 'date', 'row1', 'row2', 'row3', 'row4', 'row5', 'row6']
rows = [[1, 'date1', 1, 1, 1, 0, 0, 1],
[1, 'date1', 1, 2, 0, 1, 0, 1],
[2, 'date1', 1, 3, 0, 0, 1, 1],
[2, 'date1', 1, 3, 0, 0, 2, 1]]
ColSum = ['row2', 'row6']
ColMean = ['row1', 'row3']
ColMax = ['row4', 'row5']
ColFun = [np.mean, np.sum, np.mean, np.max, np.max, np.sum]
rows_result = [[1, 'date1', 1.0, 3, 0.5, 1, 0, 2],
[2, 'date1', 1.0, 6, 0.0, 0, 2, 2]]
res = []
for k,g in itertools.groupby(rows, operator.itemgetter(0,1)):
res.append(list(k) + [sum(map(z[0], z[1:])) for z in
zip(ColFun, zip(*[c[2:] for c in g]))]
)
print(res == rows_result)
# True
print(res)
# [[1, 'date1', 1.0, 3, 0.5, 1, 0, 2],
# [2, 'date1', 1.0, 6, 0.0, 0, 2, 2]]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.