繁体   English   中英

numpy vstack空初始化

[英]numpy vstack empty initialization

我已经对图像数据进行了vstack,现在我希望将其分为训练和测试集。 但是,如何初始化一个空的numpy数组,以便可以开始vstacking?

我的简化代码如下所示:

#k-fold the data
kf = cross_validation.KFold(n, n_folds=2)
fold = 0
for train_ind, test_ind in kf:
    #Get the persons of k-fold
    train_pers = unique[train_ind]
    test_pers = unique[test_ind]

    #Set train+test stack to empty
    self.train_stack = type(self.pca_data[0])
    self.test_stack = type(self.pca_data[0])

    #For all test data
    for data in range(len(self.pca_data)):
        print(self.pca_pers[data])
        if self.pca_pers[data] in train_pers:
            #Add to train stack
            self.train_stack = np.vstack((self.train_stack, self.pca_data[data]))

        elif self.pca_pers[data] in test_pers:
            #Add to test stack
            self.test_stack = np.vstack((self.test_stack, self.pca_data[data]))
        else:
            #Something wrong
            print(data)
            sys.exit("Strange strange data")

    fold += 1

此处的导入代码为:

#Set train+test stack to empty
self.train_stack = type(self.pca_data)
self.test_stack = type(self.pca_data)

#Add to train stack
self.train_stack = np.vstack((self.train_stack, self.pca_data[fold][data]))

self.pca_data包含所有图像数据,该数据必须分布在self.train_stackself.test_stack上 我尝试了type()函数,但这似乎是错误的。 我也尝试了self.train_stack = [] ,但这会引发错误“ ValueError:除d_0外,数组尺寸必须一致”。 如果我使用numpy.zeros,则第一个堆栈为0,我希望在vstacking之前它完全为空。

什么是初始化空numpy数组的正确方法? (输入“ numpy.ndarray”)

ps注意, self.train_stack在循环中,因此,如果变量不存在,则if语句将在第二次进入循环时不会重置变量。

变量

  • self.pca_data:Shape(978,20)Type(类型'numpy.ndarray')
  • self.pca_pers:Shape(978,1)Type(类型'numpy.ndarray')
  • self.test_stack和self.train_stack应该用于例如Shape。(489,20)和Shape(489,20),如self.pca_data
  • 您可以忽略的其他变量

避免循环调用np.vstack 每次执行此操作时,都会分配一个新数组,并将来自原始数组和新行的所有数据复制到新数组中。 所有这些复制操作使这种解决方案的速度比必要的慢。

如果我们可以假设self.pca_data每一行都属于self.train_stackself.test_stack ,那么您可以替换整个for-loop

for data in range(len(self.pca_data)):
    ...

调用np.in1d创建一个布尔掩码,然后通过使用掩码索引self.pca_data来定义self.train_stackself.test_stack

for fold, (train_ind, test_ind) in enumerate(kf):
    train_pers = unique[train_ind]
    mask = np.in1d(self.pca_pers[:,0], train_pers)
    self.train_stack = self.pca_data[mask]
    self.test_stack = self.pca_data[~mask]

例如, np.in1d创建一个布尔数组,当第一个类似数组的元素在第二个类似数组中时,该数组为True

In [544]: np.in1d(range(5), [1,2,4])
Out[544]: array([False,  True,  True, False,  True], dtype=bool)

和布尔索引可以用来选择像这样的行:

In [545]: mask = np.in1d(range(5), [1,2,4])

In [546]: x = np.arange(10).reshape(5,-1)

In [547]: x
Out[547]: 
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [548]: x[mask]
Out[548]: 
array([[2, 3],
       [4, 5],
       [8, 9]])

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM