簡體 English 中英

機器學習中的標稱值數據集

[英]Nominal valued dataset in machine learning

原文 2015-06-21 14:34:20 3 2 machine-learning/ data-mining

使用名義值而不是實數或布爾值的最佳方法是包含在機器學習的特征向量子集中嗎？

我應該將每個名義值映射到實際值嗎？

例如，如果我想讓我的程序為網絡服務用戶學習一個預測模型，其輸入特征可能包括

{ 性別（布爾值），年齡（真實），工作（名義）}

其中因變量可能是網站登錄次數。

可變作業可能是以下之一

{程序員，藝術家，公務員......}。

我應該將 PROGRAMMER 映射到 0，將 ARTIST 映射到 1 等等嗎？

2 個解決方案

如果有的話，做一個單熱編碼。

如果您的數據具有類別屬性，建議使用可以很好地處理此類數據而無需編碼的算法，例如決策樹和隨機森林。

如果你讀過《用 Spark 進行機器學習》這本書，作者寫道，

分類特征

分類特征不能以其原始形式用作輸入，因為它們不是數字； 相反，它們是變量可以采用的一組可能值的成員。 在前面提到的例子中，用戶職業是一個分類變量，可以取學生、程序員等的值。

：

要將分類變量轉換為數值表示，我們可以使用一種稱為 1-of-k 編碼的常用方法。 需要一種方法（例如 1-of-k 編碼）以對機器學習任務有意義的方式表示名義變量。 序數變量可能以其原始形式使用，但通常以與名義變量相同的方式進行編碼。

：

我也有同樣的想法。

我認為如果有一個有意義的（設計良好的）轉換函數可以將分類（名義）映射到實際值，我也可以使用僅采用數值向量的學習算法。

實際上，我已經完成了一些必須這樣做的項目，並且沒有提出有關學習系統性能的問題。

對我的問題投反對票的人，請取消您的評價。

機器學習，名義數據歸一化

[英]machine learning, nominal data normalization

在機器學習中編碼數字標稱值

[英]Encoding numeric nominal values in machine learning

機器學習數據集關聯

[英]Machine learning dataset correlation

機器學習中數據集的標注

[英]labelling of dataset in machine learning

具有不平衡數據集的機器學習

[英]Machine Learning with an Unbalanced Dataset

機器學習數據集的不同麥克風

[英]Different microphones for machine learning dataset

使用機器學習對數據集進行聚類

[英]Clustering of dataset using machine learning

來自文件的機器學習數據集

[英]Machine learning dataset from files

機器學習-大數據集問題

[英]Machine Learning -Issues with big dataset

機器學習-過度擬合數據集

[英]Machine Learning - Overfitting The Dataset On Purpose

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 機器學習，名義數據歸一化在機器學習中編碼數字標稱值機器學習數據集關聯機器學習中數據集的標注具有不平衡數據集的機器學習機器學習數據集的不同麥克風使用機器學習對數據集進行聚類來自文件的機器學習數據集機器學習-大數據集問題機器學習-過度擬合數據集

相關標簽

機器學習中的標稱值數據集

問題描述

2 個解決方案

解決方案1
1 已采納 2015-06-21 15:27:29

解決方案2
0 2015-06-25 04:59:53

機器學習中的標稱值數據集

問題描述

2 個解決方案

解決方案1 1 已采納 2015-06-21 15:27:29

解決方案2 0 2015-06-25 04:59:53

解決方案1
1 已采納 2015-06-21 15:27:29

解決方案2
0 2015-06-25 04:59:53