簡體   English   中英

如何處理不同特征的數據集?

[英]How to deal with dataset of different features?

我正在努力在 CEA 分類數據集(二進制分類)上創建 MLP model。 每個樣本包含 4 個不同的特征,例如電阻和其他值,每個都在其自己的范圍內(電阻以百為單位,另一個以微量為單位,等等)。 我還是機器學習的新手,這是第一個真正的 model 構建。 我該如何處理這些數據? 我已嘗試使用 function 激活 sigmoid 將每個樣本饋送到 neural.network,但我沒有得到准確的結果。 我假設處理這種數據是為了擴展它? 如果是這樣,有哪些有用的資源可供查看,因為我不太了解何時需要擴展。

縮放數據可能是構建機器學習 model 的重要一步,尤其是在使用神經網絡時。 縮放有助於確保數據集中的所有特征都具有相似的比例,這可以使 model 更容易學習。

有幾種不同的方法可以擴展數據,例如規范化和標准化。 規范化是縮放數據以使其具有最小值0和最大值1的過程。 標准化是縮放數據以使其均值為0和標准差為1的過程。

使用 CEA 分類數據集時,嘗試規范化和標准化可能會有所幫助,以了解哪一個更適合您的特定數據集。 您可以使用 scikit-learn 庫的預處理函數,如 MinMaxScaler() 和 StandardScaler() 分別進行規范化和標准化。

此外,嘗試不同的激活函數(例如 ReLU 或 LeakyReLU)可能會有所幫助,看看它們是否會產生更准確的結果。 此外,您可以嘗試在 neural.network 中添加更多層和神經元,看看它是否可以提高性能。

同樣重要的是要記住,特征工程(包括選擇最重要特征的過程)可能比縮放更重要。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM