如何使用多個 class 標簽對數據進行編碼？

Question

我有多個類的分類問題，比如 A、B、C 和 D。我的數據具有以下 y 標簽：

y0 = [['A'], ['B'], ['A','D'], ['A'], ['A','C','D'], ['D'], ..., ['C'], ['A','B','C','D'] , ['B']]

我想在這些標簽上訓練一個隨機森林分類器。 首先，我需要對標簽進行編碼。 我首先嘗試LabelEncoder ：

from sklearn.preprocessing import OneHotEncoder, LabelEncoder
le = LabelEncoder()
le.fit_transform(y0)
# encoded labels: array([0, 1, 2, 0, 3, 4, ... 5, 6, 1], dtype=int64)

我也試過OneHotEncoder ，但很明顯， LabelEncoder和OneHotEncoder都不能在這里工作。 問題是我無法使用多個 class 標簽（例如['A','B','C'] ）對數據進行編碼。 我想這些簡單的編碼方法不是 go 的方法，那么編碼我的 class 標簽的最佳方法是什么？ 為了澄清，我不想將例如['A','B']視為與['A']或['B']完全不同的 class 。 我希望它是一個不同的 class 但同時仍然繼承 A 和 B 類的特性。

Answer 1

這種問題稱為多標簽（與多類相反，其中每個樣本只有一個 class 標簽），sklearn 期望多標簽問題將目標編碼為形狀為(n_samples, n_labels)的二進制數組。 您可以使用MultiLabelBinarizer以該格式對數據進行編碼。

Answer 2

而不是使用OneHotEncoder或LabelEncoder您可以使用OrdinalEncoder將分類特征編碼為 integer 數組。

結果類將按順序排列，例如按字母順序A 、 AB 、 AD等。

問題可能是AB是否更類似於AC或AD 。 我的意思是字母順序可能無法反映真正的相似性，例如序數比例'cold','warm','hot' ，因此應該使用手動編碼和重新排序。 但是這些細節需要一些領域知識。

如何使用多個 class 標簽對數據進行編碼？

問題描述

2 個解決方案

解決方案1
1 已采納 2020-07-10 00:20:51

解決方案2
0 2020-07-09 22:56:36

如何使用多個 class 標簽對數據進行編碼？

問題描述

2 個解決方案

解決方案1 1 已采納 2020-07-10 00:20:51

解決方案2 0 2020-07-09 22:56:36

解決方案1
1 已采納 2020-07-10 00:20:51

解決方案2
0 2020-07-09 22:56:36