簡體 English 中英

我們什么時候應該將數據集拆分為測試和訓練？

[英]When should we split the dataset into test and train?

原文 2020-07-18 19:16:53 3 1 split/ dataset

我是機器學習的新手，我得到了一個數據集，所以我想知道在我們深入建模之前按順序處理數據集的確切步驟。 據我了解，我們首先需要清理數據（刪除重復項，處理 null，...）可視化數據然后選擇特征 -（制作新特征）

那么我們是否應該在特征選擇后拆分數據，然后開始建模？ 我真的很困惑！

非常感謝！

1 個解決方案

當你在那里寫了其中一些時，機器學習的生命周期就像我的觀點如下；

收集數據
研究收集的數據，哪些特征是分類的，哪些特征是數字的等（學習數據類型）
開始進行數據操作/清理，例如刪除重復項、異常值、高度相關的事物（即，如果男性和女性有兩個特征，則刪除其中一個，因為如果你不是男性，那么你是 100% 女性。）
可視化您的數據以觀察異常值、相關性等。
如果您有分類數據，則需要將它們轉換為數字
分離依賴和獨立的特征。
特征選擇，選擇一些最重要的特征
根據您有多少樣本來決定要做什么。
如果不是太多，則意味着每個樣本/記錄對您都很重要並考慮交叉驗證
拆分數據后，再次檢查數據。 如果您的特征有不同的單位並且它們之間存在很大差異，您應該考慮使用“標准化或標准化”方法來使用相同的單位/比例
一切都已完成。 確定您要選擇的評估指標。 定義項目的目標。 你想要什么？
然后選擇模型。 在擬合和預測過程之后，檢查您的評估模型、分數。 哪一個得分最高？ （在做這個的時候，我建議你計算時間。時間真的很重要，你也應該考慮一下。）

一次准確的測量值超過一千個專家意見

您可以在這里查看我在 github 中的一個項目 => https://github.com/erolerdogan/Property-Maintenance-Fines

我希望這些步驟可以幫助您了解更多。 這些是我的觀點。 如果有人編輯、添加或顯示我的錯誤，我會非常高興。 謝謝

如何拆分圖像數據集以使用 R 腳本進行訓練和測試

[英]How to split image dataset to train and test with R script

將 Tensorflow 數據集拆分為訓練集、驗證集、測試集，此代碼是否會導致數據泄漏？

[英]Split a Tensorflow Dataset into Train, Validation, Test sets, does this code cause data leakage?

創建按組拆分的列車測試

[英]Create train test split by group

在 C# 處將數據集拆分為訓練/測試/有效

[英]Dataset splitting as train/test/valid at C#

如何根據標簽訓練/測試/拆分數據？

[英]How to train/test/split data based on labels?

訓練測試拆分后丟棄值

[英]Drop values after train test split

在訓練測試拆分 function 后訪問 x_train 列

[英]Access x_train columns after train test split function

將數據拆分為在標簽上分層的訓練和測試

[英]Split data into train and test stratified on label

訓練、驗證、測試在 R 中的 CARET 中拆分 model

[英]train,validation, test split model in CARET in R

sas宏拆分數據集應放在哪里

[英]sas macro split dataset where should it locate

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何拆分圖像數據集以使用 R 腳本進行訓練和測試將 Tensorflow 數據集拆分為訓練集、驗證集、測試集，此代碼是否會導致數據泄漏？創建按組拆分的列車測試在 C# 處將數據集拆分為訓練/測試/有效如何根據標簽訓練/測試/拆分數據？訓練測試拆分后丟棄值在訓練測試拆分 function 后訪問 x_train 列將數據拆分為在標簽上分層的訓練和測試訓練、驗證、測試在 R 中的 CARET 中拆分 model sas宏拆分數據集應放在哪里

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM