困惑於itertools groupby求和

Question

考慮一下...

from itertools import groupby
from operator import itemgetter

data = [{'pid': 1, 'items': 1}, {'pid': 2, 'items': 5}, {'pid': 1, 'items': 3}]
data = sorted(data, key=itemgetter('pid'))

for pid, rows in groupby(data, lambda x: x['pid']):
    print(pid, sum(r['items'] for r in rows))
    for key in ['items']:
        print(pid, sum(r[key] for r in rows))

第一個print()調用將為pid 1打印正確的＃，4，為2 print() 5，第二個print()調用在通過鍵列表進行循環中的打印為0。 這是怎么回事？

Answer 1

從groupby獲得的rows對象是一種只能使用一次的生成器。 當您遍歷第一個print語句時，您將消耗這些值，因此，當您下次嘗試對其進行遍歷時， rows是一個空生成器-您已經訪問並用盡了對其迭代功能的訪問權限。

您可以使用row_list = list(rows)然后使用row_list使項目在多個迭代遍歷中保持row_list 。

為了更加清晰，我建議將您的代碼放入Python REPL中，並在該循環中檢查type(rows) ，並查看該對象提供的API。

Answer 2

生成器遇到了一個非常普遍的問題-生成器只能迭代一次。 itertools通常會返回生成器。

從groupby的文檔中：

返回的組本身就是一個迭代器，它與groupby()共享基礎的可迭代對象。 因為源是共享的，所以當前進groupby()對象時，先前的組不再可見。

只需刪除您的print()調用之一，並觀察其工作即可。 如果您需要多次訪問返回的數據，則列表是保存結果的潛在結構。

Answer 3

固定代碼：

from itertools import groupby
from operator import itemgetter

data = [{'pid': 1, 'items': 1}, {'pid': 2, 'items': 5}, {'pid': 1, 'items': 3}]
data = sorted(data, key=itemgetter('pid'))

for pid, rows_gen in groupby(data, lambda x: x['pid']):
    rows=list(rows_gen)      # save the group to access more than once
    print(pid, sum(r['items'] for r in rows))
    for key in ['items']:
        print(pid, sum(r[key] for r in rows))

困惑於itertools groupby求和

問題描述

3 個解決方案

解決方案1
5 已采納 2016-04-05 03:24:58

解決方案2
3 2016-04-05 03:26:07

解決方案3
3 2016-04-05 03:33:27

困惑於itertools groupby求和

問題描述

3 個解決方案

解決方案1 5 已采納 2016-04-05 03:24:58

解決方案2 3 2016-04-05 03:26:07

解決方案3 3 2016-04-05 03:33:27

解決方案1
5 已采納 2016-04-05 03:24:58

解決方案2
3 2016-04-05 03:26:07

解決方案3
3 2016-04-05 03:33:27