簡體   English   中英

使用數字和文本數據在MATLAB中訓練SVM分類器

[英]Training SVM classifier in MATLAB with numeric+text data

我想在MATLAB中訓練SVM分類器以進行威脅檢測。 訓練數據在Excel文件中,並且包含數字和文本字段/列。 當我將此數據導出到MATLAB時,它可以是表格式或單元格格式。 如何將其轉換為矩陣格式?

PS:使用xlsread函數不會導入文本數據。

數據中有4種屬性。 數值,離散,標稱和序數。 在這里您可以閱讀有關它們的更多信息。 首先,對數據集中的每個特征進行統計分析,以了解基本統計信息,例如均值,中位數,最大值,最小值,變量類型,以及其是否類似於名詞性或有序性的單詞以及全部。 因此,您對要處理的內容有了一個很好的認識。然后根據變量類型,可以確定我們正在使用的向量化。如果它是數字變量,則可以將其分為不同的類和特征縮放。 如果它是序數變量,則可以給出邏輯順序。 如果是名義變量,則可以給出相同的數字名稱。 在這里,您只需要檢查每個功能對最終預測的影響程度

我的建議是,也使用Weka GUI可視化數據。 然后您可以逐列預處理數據

您需要使用偽變量或其他技術將文本字段轉換為數字,或者如果它們實際上是id(例如,醫療數據的患者姓名,記錄號,調查的響應者uuid等),則將其完全刪除。

RPython + Pandas中 ,這實際上會更容易,但是在Matlab中,您將需要自己執行編碼,從單元數組到矩陣。 或者,您可以嘗試使用此工具箱

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM