在列表上應用多個聚合函數而不使用 pandas

Question

我有一個行列表，有兩個鍵列和 6 個值列。 我想計算值列的總和、平均值和最大值，基於每個 function 的列列表，使用itertools.groupby分組，而不使用 pandas。

columns = [ID, date, row1, row2, row3, row4, row5, row6]
rows = [[1, date1, 1,     1,    1,   0,    0,  1],
        [1, date1, 1,     2,    0,   1,    0,  1],
        [2, date1, 1,     3,    0,   0,    1,  1], 
        [2, date1, 1,     3,    0,   0,    2,  1]]

ColSum = [row2, row6]
ColMean = [row1, row3]
ColMax = [row4, row5]

我期望計算的結果：

rows_result = [[1, date1, 1,     3,  0.5,   1,    0,  2],
               [2, date1, 1,     6,    0,   0,    2,  2]]

我的代碼：

for cols in ColSum:
  index = int(np.where(columns == cols)[0][0])
        
  for k, g in itertools.groupby(rows[:, index], operator.itemgetter(0,1)):
    res.append((list(k) +list(map(sum, zip(*[c[2:] for c in g])))))

for colm in colMean:
  index = int(np.where(columns == colm)[0][0])
    
  for k, g in itertools.groupby(rows[:, index], operator.itemgetter(0,1)):
    res.append((list(k) +list(map(sum, zip(*[c[2:] for c in g])))))

但是，這不起作用。

Answer 1

在構建結果列表時分別計算每個分組列的結果非常復雜。 在ColSum的初始構造之后，您必須編輯每個行級元素。 可以做到，但我覺得不符合函數式編程的精神。

相反，下面的程序使用ColFun將 function 設置為應用於每一列（相當於第 1 行到第 6 行）。 在for循環中，它遍歷每個組（如(1, 'date1') ），同時在列上使用請求的 function 應用程序構造 6 個值列的列表。

結果被附加到一個列表中，該列表與（稍微編輯的）所需結果相匹配。

import itertools
import operator
import numpy as np

columns = ['ID', 'date', 'row1', 'row2', 'row3', 'row4', 'row5', 'row6']
rows = [[1, 'date1', 1,     1,    1,   0,    0,  1],
        [1, 'date1', 1,     2,    0,   1,    0,  1],
        [2, 'date1', 1,     3,    0,   0,    1,  1], 
        [2, 'date1', 1,     3,    0,   0,    2,  1]]

ColSum = ['row2', 'row6']
ColMean = ['row1', 'row3']
ColMax = ['row4', 'row5']
ColFun = [np.mean, np.sum, np.mean, np.max, np.max, np.sum]
rows_result = [[1, 'date1', 1.0,   3,  0.5,   1,    0,  2],
               [2, 'date1', 1.0,   6,  0.0,   0,    2,  2]]

res = []
for k,g in itertools.groupby(rows, operator.itemgetter(0,1)):
    res.append(list(k) + [sum(map(z[0], z[1:])) for z in
        zip(ColFun, zip(*[c[2:] for c in g]))]
        )
print(res == rows_result)
# True
print(res)
# [[1, 'date1', 1.0, 3, 0.5, 1, 0, 2],
#  [2, 'date1', 1.0, 6, 0.0, 0, 2, 2]]

在列表上應用多個聚合函數而不使用 pandas

問題描述

1 個解決方案

解決方案1
0 已采納 2021-06-07 00:46:50

在列表上應用多個聚合函數而不使用 pandas

問題描述

1 個解決方案

解決方案1 0 已采納 2021-06-07 00:46:50

解決方案1
0 已采納 2021-06-07 00:46:50