繁体   English   中英

Pythonic从numpy数组列表中创建numpy数组的方法

[英]Pythonic way to create a numpy array from a list of numpy arrays

我在循环中生成一维numpy数组的列表,然后将此列表转换为2d numpy数组。 如果我提前知道项目的数量,我会预先分配一个2d numpy数组,但我没有,因此我将所有内容都放在列表中。

模拟如下:

>>> list_of_arrays = map(lambda x: x*ones(2), range(5))
>>> list_of_arrays
[array([ 0.,  0.]), array([ 1.,  1.]), array([ 2.,  2.]), array([ 3.,  3.]), array([ 4.,  4.])]
>>> arr = array(list_of_arrays)
>>> arr
array([[ 0.,  0.],
       [ 1.,  1.],
       [ 2.,  2.],
       [ 3.,  3.],
       [ 4.,  4.]])

我的问题如下:

是否有更好的方法(性能方面)来完成收集顺序数字数据(在我的情况下是numpy数组)的任务,而不是将它们放在一个列表中,然后从中创建一个numpy.array(我正在创建一个新的obj并复制数据)? 在经过良好测试的模块中是否有“可扩展”矩阵数据结构?

我的2d矩阵的典型大小将介于100x10和5000x10浮点之间

编辑:在这个例子中我使用map,但在我的实际应用程序中,我有一个for循环

方便的方法,使用numpy.concatenate 我相信它也比@ unutbu的答案更快:

In [32]: import numpy as np 

In [33]: list_of_arrays = list(map(lambda x: x * np.ones(2), range(5)))

In [34]: list_of_arrays
Out[34]: 
[array([ 0.,  0.]),
 array([ 1.,  1.]),
 array([ 2.,  2.]),
 array([ 3.,  3.]),
 array([ 4.,  4.])]

In [37]: shape = list(list_of_arrays[0].shape)

In [38]: shape
Out[38]: [2]

In [39]: shape[:0] = [len(list_of_arrays)]

In [40]: shape
Out[40]: [5, 2]

In [41]: arr = np.concatenate(list_of_arrays).reshape(shape)

In [42]: arr
Out[42]: 
array([[ 0.,  0.],
       [ 1.,  1.],
       [ 2.,  2.],
       [ 3.,  3.],
       [ 4.,  4.]])

假设您知道最终的数组arr永远不会大于5000x10。 然后你可以预先分配一个最大大小的数组,在循环中用数据填充它,然后在退出循环后使用arr.resize将其减少到发现的大小。

下面的测试表明,无论数组的最终大小是什么,这样做都会比构建中间python列表稍快一些。

此外, arr.resize取消分配未使用的内存,因此最终(尽管可能不是中间)内存占用量小于python_lists_to_array使用的内存占用量。

这表明numpy_all_the_way更快:

% python -mtimeit -s"import test" "test.numpy_all_the_way(100)"
100 loops, best of 3: 1.78 msec per loop
% python -mtimeit -s"import test" "test.numpy_all_the_way(1000)"
100 loops, best of 3: 18.1 msec per loop
% python -mtimeit -s"import test" "test.numpy_all_the_way(5000)"
10 loops, best of 3: 90.4 msec per loop

% python -mtimeit -s"import test" "test.python_lists_to_array(100)"
1000 loops, best of 3: 1.97 msec per loop
% python -mtimeit -s"import test" "test.python_lists_to_array(1000)"
10 loops, best of 3: 20.3 msec per loop
% python -mtimeit -s"import test" "test.python_lists_to_array(5000)"
10 loops, best of 3: 101 msec per loop

这表明numpy_all_the_way使用更少的内存:

% test.py
Initial memory usage: 19788
After python_lists_to_array: 20976
After numpy_all_the_way: 20348

test.py:

import numpy as np
import os


def memory_usage():
    pid = os.getpid()
    return next(line for line in open('/proc/%s/status' % pid).read().splitlines()
                if line.startswith('VmSize')).split()[-2]

N, M = 5000, 10


def python_lists_to_array(k):
    list_of_arrays = list(map(lambda x: x * np.ones(M), range(k)))
    arr = np.array(list_of_arrays)
    return arr


def numpy_all_the_way(k):
    arr = np.empty((N, M))
    for x in range(k):
        arr[x] = x * np.ones(M)
    arr.resize((k, M))
    return arr

if __name__ == '__main__':
    print('Initial memory usage: %s' % memory_usage())
    arr = python_lists_to_array(5000)
    print('After python_lists_to_array: %s' % memory_usage())
    arr = numpy_all_the_way(5000)
    print('After numpy_all_the_way: %s' % memory_usage())

甚至比@Gill Bates的回答简单,这里是一行代码:

np.stack(list_of_arrays, axis=0)

你正在做的是标准方式。 numpy数组的一个属性是它们需要连续的内存。 我能想到的“洞”的唯一可能性是可能的strides成员PyArrayObject ,但这并不影响这里的讨论。 由于numpy数组具有连续的内存并且是“预分配的”,因此添加新的行/列意味着分配新内存,复制数据,然后释放旧内存。 如果你做了很多,那就不是很有效率了。

有人可能不想创建列表然后将其转换为numpy数组的一种情况是列表包含大量数字:一个数字的numpy数组占用的空间比本机Python数字列表少得多(因为本机Python列表存储Python对象)。 对于典型的阵列大小,我认为这不是问题。

当您从数组列表创建最终阵列,您复制(在您的示例2-d)阵列中的所有数据,为新的新位置。 这比使用numpy数组和每次获取新数据时执行next = numpy.vstack((next, new_row))更有效。 vstack()将复制每个“行”的所有数据。

不久前在numpy-discussion邮件列表上有一个线程讨论了添加一个允许有效扩展/追加的新numpy数组类型的可能性。 当时似乎对此有很大的兴趣,虽然我不知道是否有什么事情发生了。 你可能想看看那个帖子。

我会说你正在做的是非常Pythonic,而且效率很高,所以除非你真的需要别的东西(更多的空间效率,也许吧?),你应该没问题。 这就是我在开始时不知道数组中元素数量时创建numpy数组的方法。

我将添加我自己的~unutut的答案版本。 与numpy_all_the方式类似,但如果您有索引错误,则动态调整大小。 我认为对于小型数据集来说会更快一些,但它会慢一些 - 边界检查会使事情变得太慢。

initial_guess = 1000

def my_numpy_all_the_way(k):
    arr=np.empty((initial_guess,M))
    for x,row in enumerate(make_test_data(k)):
        try:
            arr[x]=row
        except IndexError:
            arr.resize((arr.shape[0]*2, arr.shape[1]))
            arr[x]=row
    arr.resize((k,M))
    return arr

甚至更简单的@fnjn回答

np.vstack(list_of_arrays)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM