簡體   English   中英

我們什么時候應該將數據集拆分為測試和訓練?

[英]When should we split the dataset into test and train?

我是機器學習的新手,我得到了一個數據集,所以我想知道在我們深入建模之前按順序處理數據集的確切步驟。 據我了解,我們首先需要清理數據(刪除重復項,處理 null,...)可視化數據然后選擇特征 -(制作新特征)

那么我們是否應該在特征選擇后拆分數據,然后開始建模? 我真的很困惑!

非常感謝!

當你在那里寫了其中一些時,機器學習的生命周期就像我的觀點如下;

  1. 收集數據
  2. 研究收集的數據,哪些特征是分類的,哪些特征是數字的等(學習數據類型)
  3. 開始進行數據操作/清理,例如刪除重復項、異常值、高度相關的事物(即,如果男性和女性有兩個特征,則刪除其中一個,因為如果你不是男性,那么你是 100% 女性。)
  4. 可視化您的數據以觀察異常值、相關性等。
  5. 如果您有分類數據,則需要將它們轉換為數字
  6. 分離依賴和獨立的特征。
  7. 特征選擇,選擇一些最重要的特征
  8. 根據您有多少樣本來決定要做什么。
  9. 如果不是太多,則意味着每個樣本/記錄對您都很重要並考慮交叉驗證
  10. 拆分數據后,再次檢查數據。 如果您的特征有不同的單位並且它們之間存在很大差異,您應該考慮使用“標准化或標准化”方法來使用相同的單位/比例
  11. 一切都已完成。 確定您要選擇的評估指標。 定義項目的目標。 你想要什么?
  12. 然后選擇模型。 在擬合和預測過程之后,檢查您的評估模型、分數。 哪一個得分最高? (在做這個的時候,我建議你計算時間。時間真的很重要,你也應該考慮一下。)

一次准確的測量值超過一千個專家意見

您可以在這里查看我在 github 中的一個項目 => https://github.com/erolerdogan/Property-Maintenance-Fines

我希望這些步驟可以幫助您了解更多。 這些是我的觀點。 如果有人編輯、添加或顯示我的錯誤,我會非常高興。 謝謝

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM