簡體   English   中英

機器學習中的標稱值數據集

[英]Nominal valued dataset in machine learning

使用名義值而不是實數或布爾值的最佳方法是包含在機器學習的特征向量子集中嗎?

我應該將每個名義值映射到實際值嗎?

例如,如果我想讓我的程序為網絡服務用戶學習一個預測模型,其輸入特征可能包括

{ 性別(布爾值),年齡(真實),工作(名義)}

其中因變量可能是網站登錄次數。

可變作業可能是以下之一

{程序員,藝術家,公務員......}。

我應該將 PROGRAMMER 映射到 0,將 ARTIST 映射到 1 等等嗎?

如果有的話,做一個單熱編碼。

如果您的數據具有類別屬性,建議使用可以很好地處理此類數據而無需編碼的算法,例如決策樹和隨機森林。

如果你讀過《用 Spark 進行機器學習》這本書,作者寫道,


分類特征

分類特征不能以其原始形式用作輸入,因為它們不是數字; 相反,它們是變量可以采用的一組可能值的成員。 在前面提到的例子中,用戶職業是一個分類變量,可以取學生、程序員等的值。

要將分類變量轉換為數值表示,我們可以使用一種稱為 1-of-k 編碼的常用方法。 需要一種方法(例如 1-of-k 編碼)以對機器學習任務有意義的方式表示名義變量。 序數變量可能以其原始形式使用,但通常以與名義變量相同的方式進行編碼。


我也有同樣的想法。

我認為如果有一個有意義的(設計良好的)轉換函數可以將分類(名義)映射到實際值,我也可以使用僅采用數值向量的學習算法。

實際上,我已經完成了一些必須這樣做的項目,並且沒有提出有關學習系統性能的問題。

對我的問題投反對票的人,請取消您的評價。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM