Pandas pd.Series() 和 pd.DataFrame() 非常慢

Question

我需要一些幫助來提高以下代碼的性能。

        for object in dict_of_objects.values():
            test = pd.Series(object.properties)    #properties is a dict
            series_list.append(test)

        # List comprehension is not really faster than the loop since pd.Series() takes most time
        #series_list = [pd.Series(object.properties) for object in dict_of_objects.values()]

        # Also very slow
        df = pd.DataFrame(series_list)

在對代碼進行一些計時后，我發現pd.Series(object.properties)和pd.DataFrame(series_list)非常慢 - 兩者都需要大約 9 秒才能完成，而 append 只需要 0.4 秒。 因此，列表理解並不是真正的改進，因為它也調用了 pd.Series(object.properties)。

您對如何提高此性能有一些建議嗎？

最好的，朱爾茲

Answer 1

可以實現相同的結果，例如，如下所示：

properties_list = [o.properties for o in dict_of_objects.values()]
df = pd.DataFrame(properties_list).T

或者使用dict()的屬性，這需要更少的操作：

properties_dict = {k: o.properties for k, o in dict_of_objects.items()}
df = pd.DataFrame.from_dict(properties_dict)

Answer 2

讓我們看一些代碼片段：

import numpy as np
import pandas as pd
from copy import deepcopy as cp

N_objects = 10
N_samples = 10000

class SimpleClass:
    def __init__(self,prop):
        self.properties = prop

dict_of_objects = {'obj{}'.format(i): 
                        SimpleClass({
                                        'alice' : np.random.rand(N_samples),
                                        'bob'   : np.random.rand(N_samples)
                                    }) for i in range(N_objects)}

def slow_update(dict_of_objects):
    series_list = []
    for obj in dict_of_objects.values():
        test = pd.Series(obj.properties)
        series_list.append(test)
    return pd.DataFrame(series_list)

def med_update(dict_of_objects):
    return pd.DataFrame([pd.Series(obj.properties) for obj in dict_of_objects.values()])

def fast_update(dict_of_objects):
    keys = iter(dict_of_objects.values()).__next__().properties.keys()
    return pd.DataFrame({k: [obj.properties[k] for obj in dict_of_objects.values()] for k in keys})

並有時間安排：

>>> %timeit slow_update(dict_of_objects)
2.88 ms ± 19.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
>>> %timeit med_update(dict_of_objects)
2.86 ms ± 23.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
>>> %timeit fast_update(dict_of_objects)
344 µs ± 17.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

快速更新執行以下操作：

使用__next__從迭代器中獲取字段。
使用列表推導構造字段。
使用字典理解構造數據結構。

它比大多數方法快約 8 倍。

編輯：正如@koPytok 正確指出的那樣，如果每個對象的properties屬性具有不同的 keys ， fast_update將不起作用。如果您選擇為諸如 NoSQL 數據庫抓取之類的東西實現此功能，請記住這一點——在 MongoDB 中，文檔不需要共享相同的字段（此處交換文檔為 ZA8CFDE6331BD59EB2AC96F8911C4B666 字段）。

享受！

Pandas pd.Series() 和 pd.DataFrame() 非常慢

問題描述

2 個解決方案

解決方案1
2 2019-10-17 14:35:06

解決方案2
2 已采納 2019-10-17 14:47:23

Pandas pd.Series() 和 pd.DataFrame() 非常慢

問題描述

2 個解決方案

解決方案1 2 2019-10-17 14:35:06

解決方案2 2 已采納 2019-10-17 14:47:23

解決方案1
2 2019-10-17 14:35:06

解決方案2
2 已采納 2019-10-17 14:47:23