[英]When should we split the dataset into test and train?
我是機器學習的新手,我得到了一個數據集,所以我想知道在我們深入建模之前按順序處理數據集的確切步驟。 據我了解,我們首先需要清理數據(刪除重復項,處理 null,...)可視化數據然后選擇特征 -(制作新特征)
那么我們是否應該在特征選擇后拆分數據,然后開始建模? 我真的很困惑!
非常感謝!
當你在那里寫了其中一些時,機器學習的生命周期就像我的觀點如下;
一次准確的測量值超過一千個專家意見
您可以在這里查看我在 github 中的一個項目 => https://github.com/erolerdogan/Property-Maintenance-Fines
我希望這些步驟可以幫助您了解更多。 這些是我的觀點。 如果有人編輯、添加或顯示我的錯誤,我會非常高興。 謝謝
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.