从带有描述的 Numpy nd 数组创建 Pandas DataFrame 的更快方法？

Question

我想将带有维度描述的 numpy nd 数组转换为 pandas dataframe。 以下解决方案有效，但对于 360000 行似乎有点慢（在我的机器上为 1.5 秒，您的结果可能会有所不同）。

import pandas as pd
import numpy as np
from itertools import product
import time

# preparation of data
nd_data = np.random.random((5, 3, 100, 10, 4, 6))
dimension_descriptions = {
    'floaty': [0.1,0.2,0.3,0.4,0.5],
    'animal': ['ducks', 'horses', 'elephants'],
    'ramp': range(100),
    'another_ramp': range(10),
    'interesting number': [12, 15, 29, 42],
    'because': ['why', 'is', 'six', 'afraid', 'of', 'seven']
}

t_start = time.time()
# create dataframe from list of dictionairies containing data and permuted descriptions
df = pd.DataFrame([{**{'data': data}, **dict(zip(dimension_descriptions.keys(), permuted_description))}
                   for data, permuted_description in zip(nd_data.flatten(), product(*dimension_descriptions.values()))])
print(f'elapsed time: {time.time()- t_start:.1f}s')

有没有更快的方法来达到相同的结果？

Answer 1

在我的机器上，我将创建 df 的原始方法放在 function 中并对其进行计时。

def create_df1(nd_data, dimension_descriptions):
    return pd.DataFrame([{**{'data': data}, **dict(zip(dimension_descriptions.keys(), permuted_description))}
                   for data, permuted_description in zip(nd_data.flatten(), product(*dimension_descriptions.values()))])

%timeit create_df1(nd_data, dimension_descriptions)
991 ms ± 37.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

您可以避免创建临时字典并将其添加到新字典，只需在首次创建原始置换数据后将 nd_data 分配给nd_data 。 这会稍微提高速度。

def create_df2(nd_data, dimension_descriptions):
    df = pd.DataFrame([dict(zip(dimension_descriptions.keys(), permuted_description))
                       for permuted_description in product(*dimension_descriptions.values())])
    df["data"] = nd_data.flatten()
    return df

%timeit create_df2(nd_data, dimension_descriptions)
822 ms ± 42.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

如果您需要将data列作为 dataframe 中的第一列，则可以使用df.insert(0, "data", nd_data.flatten())代替，它在我的机器上获得类似的速度结果。

每次创建具有相同列名的字典似乎也很浪费。 Pandas 提供了一种避免这种情况的方法，它允许您将列列表作为单独的参数传递，并且您可以将数据作为列表列表传递。 这可以节省很多时间。

def create_df3(nd_data, dimension_descriptions):
    df = pd.DataFrame(list(product(*dimension_descriptions.values())), columns=dimension_descriptions.keys())
    df["data"] = nd_data.flatten()
    return df

%timeit create_df3(nd_data, dimension_descriptions)
281 ms ± 9.88 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

从带有描述的 Numpy nd 数组创建 Pandas DataFrame 的更快方法？

问题描述

1 个解决方案

解决方案1
0 2021-12-08 20:22:04

从带有描述的 Numpy nd 数组创建 Pandas DataFrame 的更快方法？

问题描述

1 个解决方案

解决方案1 0 2021-12-08 20:22:04

解决方案1
0 2021-12-08 20:22:04