繁体   English   中英

如何通过切片范围有效地索引到1D numpy数组

[英]How to efficiently index into a 1D numpy array via slice ranges

我有一个很大的一维数据阵列。 我在这些数据中有一个starts索引数组,其中发生了重要的事情。 我希望如此,我得到的长度窗口拿到范围的数组L ,一个在每个起点starts Bogus样本数据:

data = np.linspace(0,10,50)
starts = np.array([0,10,21])
length = 5

我想本能地做点什么

data[starts:starts+length]

但实际上,我需要将starts转换为范围“窗口”的2D数组。 来自函数式语言,我会把它想象成从列表到列表列表的map ,例如:

np.apply_along_axis(lambda i: np.arange(i,i+length), 0, starts)

但这不起作用,因为apply_along_axis只允许标量返回值。

你可以这样做:

pairs = np.vstack([starts, starts + length]).T
ranges = np.apply_along_axis(lambda p: np.arange(*p), 1, pairs)
data[ranges]

或者你可以用列表理解来做到这一点:

data[np.array([np.arange(i,i+length) for i in starts])]

或者你可以迭代地做。 (的Bleh。)

是否有一种简洁,惯用的方式在这样的某些起点切入数组? (原谅这个笨拙的新手。)

data = np.linspace(0,10,50)
starts = np.array([0,10,21])
length = 5

对于NumPy这样做的唯一方法,您可以使用此处所述的numpy.meshgrid()

http://docs.scipy.org/doc/numpy/reference/generated/numpy.meshgrid.html

正如hpaulj在评论中指出的那样,这个问题实际上并不需要meshgrid,因为你可以使用数组广播。

http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

# indices = sum(np.meshgrid(np.arange(length), starts))

indices = np.arange(length) + starts[:, np.newaxis]
# array([[ 0,  1,  2,  3,  4],
#        [10, 11, 12, 13, 14],
#        [21, 22, 23, 24, 25]])
data[indices]

回报

array([[ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653],
       [ 2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286],
       [ 4.28571429,  4.48979592,  4.69387755,  4.89795918,  5.10204082]])

如果需要花费大量时间,可以使用as_strided()创建一个滑动的windows data数组

data = np.linspace(0,10,50000)
length = 5
starts = np.random.randint(0, len(data)-length, 10000)

from numpy.lib.stride_tricks import as_strided
sliding_window = as_strided(data, (len(data) - length + 1, length), 
                 (data.itemsize, data.itemsize))

然后你可以使用:

sliding_window[starts]

得到你想要的。

它也比创建索引数组更快。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM