用於多類對象檢測的分層 K 折？

Question

更新

我上傳了一個虛擬數據集，鏈接在這里。 df.head() ：

它總共有4 個類和df.object.value_counts() ：

human    23
car      13
cat       5
dog       3

我想在多類對象檢測數據集上正確地進行K-Fold驗證拆分。

初始方法

為了實現正確的 k 折驗證拆分，我考慮了object counts和bounding box的數量。 據我了解， K-fold拆分策略主要取決於數據集（元信息）。 但是現在有了這些數據集，我已經嘗試了如下：

skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=101)
df_folds = main_df[['image_id']].copy()

df_folds.loc[:, 'bbox_count'] = 1
df_folds = df_folds.groupby('image_id').count()
df_folds.loc[:, 'object_count'] = main_df.groupby('image_id')['object'].nunique()

df_folds.loc[:, 'stratify_group'] = np.char.add(
    df_folds['object_count'].values.astype(str),
    df_folds['bbox_count'].apply(lambda x: f'_{x // 15}').values.astype(str)
)

df_folds.loc[:, 'fold'] = 0
for fold_number, (train_index, val_index) in enumerate(skf.split(X=df_folds.index, y=df_folds['stratify_group'])):
    df_folds.loc[df_folds.iloc[val_index].index, 'fold'] = fold_number

拆分后，我檢查了它是否正常工作。 到目前為止似乎還可以。

所有的折疊都包含分層的k-fold樣本， len(df_folds[df_folds['fold'] == fold_number].index)並且彼此沒有交集， set(A).intersection(B)其中A和B是索引值 ( image_id ) 的兩倍。 但問題似乎是：

Fold 0 has total: 18 + 2 + 3 = 23 bbox
Fold 1 has total: 2 + 11 = 13 bbox
Fold 2 has total: 5 + 3 = 8 bbox

憂慮

但是，我無法確定這是否是此類任務的正確方法。 我想要一些建議。 上面的方法可以嗎？ 或任何問題？ 或者有一些更好的方法！ 任何類型的建議將不勝感激。 謝謝。

Answer 1

在創建交叉驗證拆分時，我們關心的是創建折疊，這些折疊對數據中遇到的各種“案例”具有良好的分布。

在您的情況下，您決定根據汽車的數量和邊界框的數量進行折疊，這是一個不錯但有限的選擇。 因此，如果您可以使用數據/元數據識別特定情況，則可以嘗試使用它創建更智能的折疊。

最明顯的選擇是平衡折疊中的對象類型（類），但您可以更進一步。

這是主要思想，假設您的圖像主要在法國遇到汽車，而其他汽車主要在美國遇到，它可以用來創建良好的折疊，每個折疊中都有平衡數量的法國和美國汽車。 天氣條件等也可以這樣做。因此，每個折疊都將包含可供學習的代表性數據，以便您的網絡不會對您的任務產生偏見。 因此，您的模型將對數據中此類潛在的現實生活變化更加穩健。

那么，您能否在交叉驗證策略中添加一些元數據以創建更好的簡歷？ 如果不是這種情況，您能否使用數據集的 x、y、w、h 列獲取有關潛在極端情況的信息？

然后，您應該嘗試在樣本方面進行平衡的折疊，以便在相同的樣本量上評估您的分數，這將減少方差並在最后提供更好的評估。

Answer 2

您可以直接使用 StratifiedKFold() 或 StratifiedShuffleSplit() 使用基於某些分類列的分層抽樣來拆分數據集。

虛擬數據：

import pandas as pd
import numpy as np

np.random.seed(43)
df = pd.DataFrame({'ID': (1,1,2,2,3,3),
               'Object': ('bus', 'car', 'bus', 'bus', 'bus', 'car'),
               'X' : np.random.randint(0, 10, 6),
               'Y' : np.random.randn(6)

})


df

使用 StratifiedKFold()

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=2)

for train_index, test_index in skf.split(df, df["Object"]):
        strat_train_set_1 = df.loc[test_index]
        strat_test_set_1 = df.loc[test_index]

print('train_set :', strat_train_set_1, '\n' , 'test_set :', strat_test_set_1)

同樣，如果你選擇使用 StratifiedShuffleSplit()，你可以有

from sklearn.model_selection import StratifiedShuffleSplit

sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
# n_splits = Number of re-shuffling & splitting iterations.

for train_index, test_index in sss.split(df, df["Object"]):
 # split(X, y[, groups]) Generates indices to split data into training and test set.

        strat_train_set = df.loc[train_index]
        strat_test_set = df.loc[test_index]

print('train_set :', strat_train_set, '\n' , 'test_set :', strat_test_set)

Answer 3

我會簡單地使用KFold的 scikit-learn 的KFold方法來做到這一點

from numpy import array
from sklearn.model_selection import KFold
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])
kfold = KFold(3, True, 1)
for train, test in kfold.split(data):
    print('train: %s, test: %s' % (data[train], data[test]))

請看看這是否有幫助

用於多類對象檢測的分層 K 折？

問題描述

更新

初始方法

憂慮

3 個解決方案

解決方案1
1 2020-10-15 14:42:23

解決方案2
-1 2020-10-02 01:37:22

解決方案3
-2 2020-10-20 10:52:03

用於多類對象檢測的分層 K 折？

問題描述

更新

初始方法

憂慮

3 個解決方案

解決方案1 1 2020-10-15 14:42:23

解決方案2 -1 2020-10-02 01:37:22

解決方案3 -2 2020-10-20 10:52:03

解決方案1
1 2020-10-15 14:42:23

解決方案2
-1 2020-10-02 01:37:22

解決方案3
-2 2020-10-20 10:52:03