預處理機器學習中的分類屬性

Question

numpy.unique()  vs Pandas.get_dummies()

numpy.unique（）將數據分為所有K個類別的數組，並將每個值的索引作為新列返回，而get_dummies（）僅創建k個列，每個列具有（0,1）個值。

哪種將分類數據轉換為數字的方法最適合機器學習，為什么？

Answer 1

對於預處理分類屬性，它主要取決於以下事實：分類屬性是否具有有序關系。

例如，像溫度這樣的屬性由四個級別組成：非常高，很高，中，低。 這些被稱為序數變量，在這種情況下，向數字索引的轉換是合理的。 因此，“非常高”變為“ 1”，“高”變為“ 2”，依此類推。

但是，如果變量是沒有順序信息的名義變量，則數字索引很可能會由於提供給模型的錯誤信息而導致較差的結果。 例如，對於諸如性別之類的屬性，將其轉換為數值索引是沒有意義的，因為男性為“ 1”，女性為“ 2”，因為這為模型提供了偏差信息，使得女性排名高於男性值。在大多數情況下，它們都是相等的，並且彼此之間沒有順序。 因此，最好為每個變量創建具有二進制值的k列。

預處理機器學習中的分類屬性

問題描述

1 個解決方案

解決方案1
0 已采納 2018-02-24 18:55:36

預處理機器學習中的分類屬性

問題描述

1 個解決方案

解決方案1 0 已采納 2018-02-24 18:55:36

解決方案1
0 已采納 2018-02-24 18:55:36