在多個h5文件上訓練ANN Keras（基於Tensorflow）模型

Question

我有600份訓練數據文件（每個約400 MB，總計約235 GB），格式為“ h5”。 所有文件都包含帶有數字的數組，其中列數相同，但行數可以不同。

我有加載一個文件並對其進行訓練的經驗（代碼如下所示），但是如何從這么多文件中加載數據，對其進行混洗並訓練模型呢？


def load_dataset():
    """
    simply loading dataset 
    """    
    print("Start time of loading data: " + str(datetime.datetime.now())+"\n\n")

    train_dataset = h5py.File('datasets/data.h5', "r")

    data = np.array(train_dataset["data"][:]) 
    # Later in the code, "data" will be split into 
    # X_train and Y_train, e.g. in the comments below

    # Split data into X_train and Y_train
    # X_train_orig = data[:, :5].reshape(data.shape[0],5) 
    # Y_train_orig = data[:, -4].reshape(data.shape[0],1)

    print("End time of loading data: " + str(datetime.datetime.now())+"\n")
    print("Load data: complete\n")

    return data

Answer 1

如果每個文件中的所有數據點都是獨立且均勻分布的（IID），並且每個文件都具有所有類的良好表示（即，不偏重於一個類），則加載一個文件，對其內容進行洗牌並對其進行訓練，然后繼續到下一個文件，然后很快。 完成最后一個文件后，只要驗證分數不斷提高，就重復一次。

例如，Word2vec對海量數據進行了訓練，但完整數據從未加載到內存中。 只需幾個完整數據的紀元就可以使培訓收斂，因此您也應如此。

在多個h5文件上訓練ANN Keras（基於Tensorflow）模型

問題描述

1 個解決方案

解決方案1
0 2019-05-15 16:18:09

在多個h5文件上訓練ANN Keras（基於Tensorflow）模型

問題描述

1 個解決方案

解決方案1 0 2019-05-15 16:18:09

解決方案1
0 2019-05-15 16:18:09