簡體   English   中英

如何在機器學習模型中使用train.csv,test.csv和ground_truth.csv? (交叉驗證/ python)

[英]How to use a train.csv , test.csv and ground_truth.csv in a machine learning model? (cross validation/ python)

到目前為止,我只有一個數據集(df.csv)。 到目前為止,對於正常回歸模型,我使用20%的驗證大小和.train_test_split

array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
   cross_validation.train_test_split(X, Y,
   test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'

當我有三個單獨的數據集(train.csv / test.csv / ground_truth.csv)時,該如何處理? 當然,首先我使用train.csv,然后使用test.csv,最后使用ground_truth。 但是如何在模型中實現這些不同的數據集?

當執行交叉驗證時,訓練和測試數據本質上是相同的數據集,為了防止過度擬合,它們以不同的方式進行拆分。 折數表示將組合拆分的不同方式。

例如,五折交叉驗證將訓練集分成5個部分,每次將其中4個用於訓練而將1個用於測試。 因此,根據您的情況,您可以選擇以下選項:

可以只對訓練集執行交叉驗證,然后與測試集和地面真實性進行核對(擬合僅在訓練集上完成,因此,如果正確正確地進行了測試,則地面真實性應與之相似)或將訓練與測試相結合以獲得更大且可能更具代表性的數據集,然后檢查地面真實情況。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM