簡體 English 中英

標簽編碼n維分類值

[英]Label Encoding n-dimensional categorical values

原文 2019-02-06 14:20:19 3 1 python/ encoding/ encode/ categorical-data

我碰到了這篇文章scikit-learn中跨多個列的標簽編碼和注釋之一https://stackoverflow.com/a/30267328/10058906解釋了給定列的每個值如何從0到（n -1），其中n是列的長度。 我何時編碼red: 2 ， orange: 1和green: 0引發了一個問題，這是否意味着綠色比紅色更接近橙色，因為0比1更接近於2？ 現實中哪個不正確？ 我之前曾想過，也許由於green出現的次數最多，所以它的值為0 。 但是，即使orange occurs the maximum number of times ，這也不適用於apple gets value 0的列fruit 。

1 個解決方案

我想總結一下標簽編碼器和一種熱門編碼：

的確，Label Encoder只是為單元格值提供了整數表示。 這意味着對於上述數據集，如果我們對分類值進行標簽編碼-則imply that green is closer to orange than red since 0 is closer to 1 than 2這是錯誤的。

另一方面，“一次熱編碼”會為每個分類值創建一個單獨的列，並給出0或1的值，分別表示該功能的不存在或存在。 同樣， pd.get_dummies(dataframe)的內置函數會產生相同的輸出。

因此，如果給定的數據集包含本質上是序數的分類值，則使用Label Encoding是明智的； 但如果給定數據是名義數據，則應繼續使用One Hot Encoding 。

https://discuss.analyticsvidhya.com/t/dummy-variables-is-necessary-to-standardize-them/66867/2