我可以在 KNN 機器學習模型中使用字符串值作為我的因變量嗎？

Question

所以，我有 128 個面部編碼的數據，標簽是人的名字，上面有名字的列是我的目標列。 我顯然使用了標簽二值化來二值化因變量（名稱列）。 當我使用 KNN 擬合和預測人名時，它沒有預測任何內容。

它應該是這樣的：

但是我得到了這個：

因此，我的第一個疑問是我是否可以使用字符串值作為我的依賴變量或目標變量。 任何幫助表示贊賞。 謝謝

對於二值化，我使用了這個

#Binarising the labels
labelBinarised = LabelBinarizer()
Y_train=labelBinarised.fit_transform(Y_train)
Y_test = labelBinarised.fit_transform(Y_test)

Answer 1

您可以使用字符串值作為目標變量，因為文檔說目標變量應該是{array-like, sparse matrix} Target values of shape = [n_samples] or [n_samples, n_outputs] ，他們沒有提到它只是數字。 您的特征需要是數字，因為它用於計算距離，但您的目標可以是字符串。

在下面的例子中，目標值是字符串，它工作正常：

X = [[0], [1], [2], [3]]
y = ['zero', 'zero', 'one', 'one']

from sklearn.neighbors import KNeighborsClassifier

neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y)

print(neigh.predict([[3]]))

#output
#array(['one'], dtype='<U4')

我可以在 KNN 機器學習模型中使用字符串值作為我的因變量嗎？

問題描述

1 個解決方案

解決方案1
1 已采納 2020-08-26 03:54:46

我可以在 KNN 機器學習模型中使用字符串值作為我的因變量嗎？

問題描述

1 個解決方案

解決方案1 1 已采納 2020-08-26 03:54:46

解決方案1
1 已采納 2020-08-26 03:54:46