機器學習：表示單詞特征的好方法

Question

不太確定這是不是正確的地方。但這是我的問題。 因此，對於本質上為數字的特征，表示它們，繪制它們等是很自然的，但是單詞呢？

在以詞為特征的情況下，如何處理數據？ 假設我有一個具有以下功能的數據集：

InventoryVal, Number of Units, Avg Price, Category of Event and so on..

InventoryVal是一個數字
單位數是一個數字
平均價格是一個數字
事件類別是由人類分配的單詞。

如果我用id替換類別（例如）“ books”（例如1），則為事件……（但這是我已分配的東西，而不是數據固有的東西）。

在沒有人為分配任何東西的情況下，代表產品屬於“藝術”類別的良好度量標准是什么？ 嗯..太含糊或措辭松散？/

Answer 1

因此，您可能已經猜到有針對此問題的整個ML庫，但是如果您只是想入門，那么最簡單（也許是最常見）的就是word frequency 。 換句話說，您將每個單詞表示為一個特征，其值是每個文檔中單詞出現次數的函數。

但是最常見的單詞（ a，the，this等）是最常見的單詞（在普通文本文檔（例如，電子郵件）中，但並不是最重要的，因此將單詞特征表示為它的頻率的倒數 。

再次強調，這是最簡單的方法（通常是用一句話來表達）； 更復雜的分析（並非總是需要）對各個單詞進行預處理，以將其分類為詞類分析。

如果您喜歡python，我建議NLTK （自然語言工具包）是一個成熟且有據可查的python庫。 有很多“入門”教程，但也許首先是由NLTK貢獻者創建的，並在NLTK主頁上進行了引用。 這些教程通常依賴基本NLTK安裝中包含的語料庫（數據集）。

Answer 2

如果您使用的是現有的機器學習包或打包的機器學習算法，則可能有一種方法可以告訴它特定字段包含例如整數，這些整數將被視為標識符，在這種情況下，只有相等和不相等的比較才有意義。如果不是這樣，如果只有少量不同的類別，則可以用10個二進制字段替換10個值的類別字段，如果該對象屬於該特定類別，則保留1；否則，則保留0（或9個字段），如果所有對象均為0，則對象位於第十個類別中。

機器學習：表示單詞特征的好方法

問題描述

2 個解決方案

解決方案1
0 2011-12-16 01:43:36

解決方案2
0 2011-12-16 05:39:18

機器學習：表示單詞特征的好方法

問題描述

2 個解決方案

解決方案1 0 2011-12-16 01:43:36

解決方案2 0 2011-12-16 05:39:18

解決方案1
0 2011-12-16 01:43:36

解決方案2
0 2011-12-16 05:39:18