在 PyTorch 中使用 DataLoaders 進行 k 折交叉驗證

Question

我已將我的訓練數據集拆分為 80% 的訓練數據和 20% 的驗證數據，並創建了如下所示的 DataLoaders。 但是我不想限制我的模型的訓練。 所以我想把我的數據分成 K（也許 5）個折疊並進行交叉驗證。 但是，我不知道如何在拆分數據集后將它們組合到我的數據加載器中。

train_size = int(0.8 * len(full_dataset))
validation_size = len(full_dataset) - train_size
train_dataset, validation_dataset = random_split(full_dataset, [train_size, validation_size])

full_loader = DataLoader(full_dataset, batch_size=4,sampler = sampler_(full_dataset), pin_memory=True) 
train_loader = DataLoader(train_dataset, batch_size=4, sampler = sampler_(train_dataset))
val_loader = DataLoader(validation_dataset, batch_size=1, sampler = sampler_(validation_dataset))

先感謝您！

Answer 1

我剛剛編寫了一個使用數據加載器和數據集的交叉驗證函數。 這是我的代碼，希望這有幫助。

# define a cross validation function
def crossvalid(model=None,criterion=None,optimizer=None,dataset=None,k_fold=5):
    
    train_score = pd.Series()
    val_score = pd.Series()
    
    total_size = len(dataset)
    fraction = 1/k_fold
    seg = int(total_size * fraction)
    # tr:train,val:valid; r:right,l:left;  eg: trrr: right index of right side train subset 
    # index: [trll,trlr],[vall,valr],[trrl,trrr]
    for i in range(k_fold):
        trll = 0
        trlr = i * seg
        vall = trlr
        valr = i * seg + seg
        trrl = valr
        trrr = total_size
        # msg
#         print("train indices: [%d,%d),[%d,%d), test indices: [%d,%d)" 
#               % (trll,trlr,trrl,trrr,vall,valr))
        
        train_left_indices = list(range(trll,trlr))
        train_right_indices = list(range(trrl,trrr))
        
        train_indices = train_left_indices + train_right_indices
        val_indices = list(range(vall,valr))
        
        train_set = torch.utils.data.dataset.Subset(dataset,train_indices)
        val_set = torch.utils.data.dataset.Subset(dataset,val_indices)
        
#         print(len(train_set),len(val_set))
#         print()
        
        train_loader = torch.utils.data.DataLoader(train_set, batch_size=50,
                                          shuffle=True, num_workers=4)
        val_loader = torch.utils.data.DataLoader(val_set, batch_size=50,
                                          shuffle=True, num_workers=4)
        train_acc = train(res_model,criterion,optimizer,train_loader,epoch=1)
        train_score.at[i] = train_acc
        val_acc = valid(res_model,criterion,optimizer,val_loader)
        val_score.at[i] = val_acc
    
    return train_score,val_score
        

train_score,val_score = crossvalid(res_model,criterion,optimizer,dataset=tiny_dataset)

為了直觀地了解我們正在做的事情的正確性，請參見下面的輸出：

train indices: [0,0),[3600,18000), test indices: [0,3600)
14400 3600

train indices: [0,3600),[7200,18000), test indices: [3600,7200)
14400 3600

train indices: [0,7200),[10800,18000), test indices: [7200,10800)
14400 3600

train indices: [0,10800),[14400,18000), test indices: [10800,14400)
14400 3600

train indices: [0,14400),[18000,18000), test indices: [14400,18000)
14400 3600

Answer 2

看看使用 pytorch 和 sklearn 對 MNIST 數據集的交叉驗證。 提問者實現了 kFold 交叉驗證。 特別看看他自己的回答（19 年 11 月 23 日 10:34 回答）。 他不依賴於 random_split() 而是依賴於 sklearn.model_selection.KFold 並從那里構建一個 DataSet 並從那里構建一個 Dataloader。

Answer 3

您可以通過使用 sklearn 和 dataloader 中的 KFOLD 來實現這一點。

import torch
from torch._six import int_classes as _int_classes
from torch import Tensor

from typing import Iterator, Optional, Sequence, List, TypeVar, Generic, Sized

T_co = TypeVar('T_co', covariant=True)

class Sampler(Generic[T_co]):
    r"""Base class for all Samplers.

    Every Sampler subclass has to provide an :meth:`__iter__` method, providing a
    way to iterate over indices of dataset elements, and a :meth:`__len__` method
    that returns the length of the returned iterators.

    .. note:: The :meth:`__len__` method isn't strictly required by
              :class:`~torch.utils.data.DataLoader`, but is expected in any
              calculation involving the length of a :class:`~torch.utils.data.DataLoader`.
    """

    def __init__(self, data_source: Optional[Sized]) -> None:
        pass

    def __iter__(self) -> Iterator[T_co]:
        raise NotImplementedError
        
class SubsetRandomSampler(Sampler[int]):
    r"""Samples elements randomly from a given list of indices, without replacement.

    Args:
        indices (sequence): a sequence of indices
        generator (Generator): Generator used in sampling.
    """
    indices: Sequence[int]

    def __init__(self, indices: Sequence[int], generator=None) -> None:
        self.indices = indices
        self.generator = generator

    def __iter__(self):
        return (self.indices[i] for i in torch.randperm(len(self.indices), generator=self.generator))

    def __len__(self):
        return len(self.indices) 


train_dataset = CustomDataset(data_dir=train_path, mode='train') )
val_dataset = CustomDataset(data_dir=train_path, mode='val') )

    fold = KFold(5, shuffle=True, random_state=random_seed)
    for fold,(tr_idx, val_idx) in enumerate(fold.split(dataset)):
        # initialize the model
        model = smp.FPN(encoder_name='efficientnet-b4', classes=12 , encoder_weights=None, activation='softmax2d')
    
 
     
        loss = BCEDiceLoss()
        optimizer = torch.optim.AdamW([
            {'params': model.decoder.parameters(), 'lr': 1e-07/2}, 
            {'params': model.encoder.parameters(), 'lr': 5e-07},  
        ])
        scheduler = ReduceLROnPlateau(optimizer, factor=0.15, patience=2)
    
  
    
        print('#'*35); print('############ FOLD ',fold+1,' #############'); print('#'*35);
        train_loader = torch.utils.data.DataLoader(dataset=train_dataset, 
                                               batch_size=batch_size,
                                               num_workers=1,
                                               sampler = SubsetRandomSampler(tr_idx)
                                            )
        val_loader = torch.utils.data.DataLoader(dataset=val_dataset, 
                                               batch_size=batch_size,
                                               num_workers=1,
                                               sampler = SubsetRandomSampler(val_idx)
                                            )

所以在編寫DataLoader 部分時，使用subsetRandomSampler，這樣，dataloader 中的采樣器將始終隨機采樣kfold 函數生成的訓練/有效索引。

在 PyTorch 中使用 DataLoaders 進行 k 折交叉驗證

問題描述

3 個解決方案

解決方案1
7 2020-10-16 09:24:55

解決方案2
5 2020-04-03 14:01:31

解決方案3
1 2021-06-22 10:06:24

在 PyTorch 中使用 DataLoaders 進行 k 折交叉驗證

問題描述

3 個解決方案

解決方案1 7 2020-10-16 09:24:55

解決方案2 5 2020-04-03 14:01:31

解決方案3 1 2021-06-22 10:06:24

解決方案1
7 2020-10-16 09:24:55

解決方案2
5 2020-04-03 14:01:31

解決方案3
1 2021-06-22 10:06:24