簡體   English   中英

預處理機器學習中的分類屬性

[英]Preprocessing Categorical attributes in machine Learning

numpy.unique()  vs Pandas.get_dummies()

numpy.unique()將數據分為所有K個類別的數組,並將每個值的索引作為新列返回,而get_dummies()僅創建k個列,每個列具有(0,1)個值。

哪種將分類數據轉換為數字的方法最適合機器學習,為什么?

對於預處理分類屬性,它主要取決於以下事實:分類屬性是否具有有序關系。

例如,像溫度這樣的屬性由四個級別組成:非常高,很高,中,低。 這些被稱為序數變量,在這種情況下,向數字索引的轉換是合理的。 因此,“非常高”變為“ 1”,“高”變為“ 2”,依此類推。

但是,如果變量是沒有順序信息的名義變量,則數字索引很可能會由於提供給模型的錯誤信息而導致較差的結果。 例如,對於諸如性別之類的屬性,將其轉換為數值索引是沒有意義的,因為男性為“ 1”,女性為“ 2”,因為這為模型提供了偏差信息,使得女性排名高於男性值。在大多數情況下,它們都是相等的,並且彼此之間沒有順序。 因此,最好為每個變量創建具有二進制值的k列。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM