簡體   English   中英

如何矢量化單詞列表?

[英]How can I vectorize a list of words?

我正在處理 SMS 數據,我的一列數據框中有一個單詞列表,我想訓練一個分類器來預測它的類型和子類型。 我如何將單詞轉換為列表中的數字格式。

數據集

這個想法是使用跨實例在該列中找到的所有單詞作為詞匯表,除了應該刪除最不常見的單詞(以避免過度擬合)。 然后對於每個實例,該列表示為布爾特征向量,其中第 n 個值表示詞匯表中的第 n 個單詞:如果它在此實例的列表中,則為 1,否則為 0。

在 python 中,您可以使用 CountVectorizer,將列中的每個列表視為一個句子。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM