簡體   English   中英

機器學習:表示單詞特征的好方法

[英]Machine Learning: Good way to represent word features

不太確定這是不是正確的地方。但這是我的問題。 因此,對於本質上為數字的特征,表示它們,繪制它們等是很自然的,但是單詞呢?

在以詞為特征的情況下,如何處理數據? 假設我有一個具有以下功能的數據集:

InventoryVal, Number of Units, Avg Price, Category of Event and so on..
  • InventoryVal是一個數字
  • 單位數是一個數字
  • 平均價格是一個數字
  • 事件類別是由人類分配的單詞。

如果我用id替換類別(例如)“ books”(例如1),則為事件……(但這是我已分配的東西,而不是數據固有的東西)。

在沒有人為分配任何東西的情況下,代表產品屬於“藝術”類別的良好度量標准是什么? 嗯..太含糊或措辭松散?/

因此,您可能已經猜到有針對此問題的整個ML庫,但是如果您只是想入門,那么最簡單(也許是最常見)的就是word frequency 換句話說,您將每個單詞表示為一個特征,其值是每個文檔中單詞出現次數的函數。

但是最常見的單詞( a,the,this等)是最常見的單詞(在普通文本文檔(例如,電子郵件)中,但並不是最重要的,因此將單詞特征表示為它的頻率的倒數

再次強調,這是最簡單的方法(通常是用一句話來表達); 更復雜的分析(並非總是需要)對各個單詞進行預處理,以將其分類為詞類分析。

如果您喜歡python,我建議NLTK (自然語言工具包)是一個成熟且有據可查的python庫。 有很多“入門”教程,但也許首先是由NLTK貢獻者創建的,並在NLTK主頁上進行了引用。 這些教程通常依賴基本NLTK安裝中包含的語料庫(數據集)。

如果您使用的是現有的機器學習包或打包的機器學習算法,則可能有一種方法可以告訴它特定字段包含例如整數,這些整數將被視為標識符,在這種情況下,只有相等和不相等的比較才有意義。 如果不是這樣,如果只有少量不同的類別,則可以用10個二進制字段替換10個值的類別字段,如果該對象屬於該特定類別,則保留1;否則,則保留0(或9個字段) ,如果所有對象均為0,則對象位於第十個類別中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM