簡體   English   中英

如何在 weka 中做這些:交叉驗證+不平衡數據+特征選擇

[英]How to do these in weka: cross validation + imbalanced data + feature selection

我有一個不平衡的數據集(分類數據集)。 預處理后:特征個數77個,實例個數1425個(多數類=1196(83.93%),少數類=229(16.07%))。

我想使用 Weka 平台應用這些技術:

  1. 拆分數據集(使用 10 折交叉驗證)。
  2. 然后,平衡訓練集(我不知道合適的技術是什么。但假設我將使用 SMOTE)。
  3. 然后,減少特征的數量(使用特征選擇技術)。
  4. 然后,應用這些監督分類器(SVM、KNN、NB、LR、RF、集成“堆疊”)

我的問題是:

  • 這些步驟的順序是否正確? 如果不是,正確的順序是什么?
  • 我如何知道哪種技術適合我的數據集以平衡它?
  • 我應該使用哪些 Weka 工具(例如 FilteredClassifier 等)?

謝謝你。


我的目標是按照相同的順序執行以下操作:

  1. 使用 10 折交叉驗證技術拆分數據集。 對於十輪中的每一輪:
  2. 使用 SMOTE 平衡訓練集。
  3. 使用特征選擇(過濾方法-信息增益屬性評估技術)減少訓練集中的特征數量。
  4. 應用算法:SVM、KNN、LR、RF、NB 和集成(堆疊)。

因此,我使用 Weka 執行了以下操作:

  1. 預處理選項卡:
  • 我選擇了過濾器Multifilter
  • 我通過添加兩個過濾器來編輯它的屬性:
    • SMOTE (使用默認設置)作為第一個過濾器。
    • AttributeSelectionInfoGainAttributeEval評估器和Ranker搜索方法)。
  1. 分類選項卡:
  • 我選擇了一個分類器(例如 SVM)。
  • 我選擇了 10 折交叉驗證技術。
  • 然后,我按下Start並得到結果:Accuracy = 88.5614%,Precision = 87.5%,Recall = 88.6%,F-Measure = 87.6%,AUC = 72%。

我的工作正確嗎?

預處理面板或特征選擇選項卡只能用於探索數據(因此得名Weka Explorer )。

為了合並預處理以解決平衡訓練數據或選擇屬性的問題,請使用 Weka 的元分類器(您可以嵌套它們):

  • 平衡:帶 SMOTE 的 FilteredClassifier
  • 功能選擇:AttributeSelectedClassifier,您可以選擇搜索/評估和基本分類器

平衡是最外層的分類器,它使用特征選擇分類器作為它的分類器。

您可以使用Weka Experimenter比較各種設置並獲得統計顯着性結果。 有關詳細信息,請參閱 Weka 手冊 PDF。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM