簡體   English   中英

標簽編碼n維分類值

[英]Label Encoding n-dimensional categorical values

我碰到了這篇文章scikit-learn中跨多個列的標簽編碼和注釋之一https://stackoverflow.com/a/30267328/10058906解釋了給定列的每個值如何從0到(n -1),其中n是列的長度。 我何時編碼red: 2orange: 1green: 0引發了一個問題,這是否意味着綠色比紅色更接近橙色,因為0比1更接近於2? 現實中哪個不正確? 我之前曾想過,也許由於green出現的次數最多,所以它的值為0 但是,即使orange occurs the maximum number of times ,這也不適用於apple gets value 0的列fruit

我想總結一下標簽編碼器和一種熱門編碼:

的確,Label Encoder只是為單元格值提供了整數表示。 這意味着對於上述數據集,如果我們對分類值進行標簽編碼-則imply that green is closer to orange than red since 0 is closer to 1 than 2這是錯誤的。

另一方面,“一次熱編碼”會為每個分類值創建一個單獨的列,並給出0或1的值,分別表示該功能的不存在或存在。 同樣, pd.get_dummies(dataframe)的內置函數會產生相同的輸出。

因此,如果給定的數據集包含本質上是序數的分類值,則使用Label Encoding是明智的; 但如果給定數據是名義數據,則應繼續使用One Hot Encoding

https://discuss.analyticsvidhya.com/t/dummy-variables-is-necessary-to-standardize-them/66867/2

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM