如何将字典中的二维 arrays 转换为一个数组？

Question

我有以下代码：

import random
import numpy as np
import pandas as pd

num_seq = 100
len_seq = 20
nts = 4
sequences = np.random.choice(nts, size = (num_seq, len_seq), replace=True)
sequences = np.unique(sequences, axis=0) #sorts the sequences

d = {}
pr = 5

for i in range(num_seq):
    globals()['seq_' + str(i)] = np.tile(sequences[i,:],(pr,1))
    d['seq_' + str(i)] = np.tile(sequences[i,:],(pr,1))

pool = np.empty((0,len_seq),dtype=int)
for i in range(num_seq):
    pool = np.concatenate((pool,eval('seq_' +str(i))))

我想将字典d转换为 Numpy 数组（或只有一个条目的字典）。 我的代码有效，产生pool 。 但是，在num_seq 、 len_seq和pr的值较大时，需要很长时间。

执行时间很关键，因此我的问题是：有没有更有效的方法来做到这一点？

Answer 1

以下是要点列表：

np.concatenate在O(n)中运行，因此您的第二个循环在O(n^2)时间内运行。 您可以将 append 的值放到一个列表中，然后np.vstack将所有值放在最后（在O(n)时间内）。
访问globals()很慢并且被认为是一种不好的做法（因为它很容易以令人讨厌的方式破坏您的代码）；
调用eval(...)也很慢而且也不安全，所以避免它；
默认的 CPython 解释器不会优化重复的表达式（它会重新计算它们）。
您可以使用 Cython 或 Numba 稍微加快代码速度（请注意，字典的支持在 Numba 中是实验性的）。

这是一个更快的代码示例（代替第二个循环）：

pool = np.vstack([d[f'seq_{i}'] for i in range(num_seq)])

如何将字典中的二维 arrays 转换为一个数组？

问题描述

1 个解决方案

解决方案1
2 已采纳 2021-05-01 20:02:05

如何将字典中的二维 arrays 转换为一个数组？

问题描述

1 个解决方案

解决方案1 2 已采纳 2021-05-01 20:02:05

解决方案1
2 已采纳 2021-05-01 20:02:05