簡體 English 中英

如何在 weka 中做這些：交叉驗證+不平衡數據+特征選擇

[英]How to do these in weka: cross validation + imbalanced data + feature selection

原文 2022-12-23 09:22:03 1 1 machine-learning/ weka/ cross-validation/ feature-selection/ imbalanced-data

我有一個不平衡的數據集（分類數據集）。 預處理后：特征個數77個，實例個數1425個（多數類=1196（83.93%），少數類=229（16.07%））。

我想使用 Weka 平台應用這些技術：

拆分數據集（使用 10 折交叉驗證）。
然后，平衡訓練集（我不知道合適的技術是什么。但假設我將使用 SMOTE）。
然后，減少特征的數量（使用特征選擇技術）。
然后，應用這些監督分類器（SVM、KNN、NB、LR、RF、集成“堆疊”）

我的問題是：

這些步驟的順序是否正確？ 如果不是，正確的順序是什么？
我如何知道哪種技術適合我的數據集以平衡它？
我應該使用哪些 Weka 工具（例如 FilteredClassifier 等）？

謝謝你。

我的目標是按照相同的順序執行以下操作：

使用 10 折交叉驗證技術拆分數據集。 對於十輪中的每一輪：
使用 SMOTE 平衡訓練集。
使用特征選擇（過濾方法-信息增益屬性評估技術）減少訓練集中的特征數量。
應用算法：SVM、KNN、LR、RF、NB 和集成（堆疊）。

因此，我使用 Weka 執行了以下操作：

從預處理選項卡：

我選擇了過濾器Multifilter 。
我通過添加兩個過濾器來編輯它的屬性：
- SMOTE （使用默認設置）作為第一個過濾器。
- AttributeSelection （ InfoGainAttributeEval評估器和Ranker搜索方法）。

從分類選項卡：

我選擇了一個分類器（例如 SVM）。
我選擇了 10 折交叉驗證技術。
然后，我按下Start並得到結果：Accuracy = 88.5614%，Precision = 87.5%，Recall = 88.6%，F-Measure = 87.6%，AUC = 72%。

我的工作正確嗎？

1 個解決方案

預處理面板或特征選擇選項卡只能用於探索數據（因此得名Weka Explorer ）。

為了合並預處理以解決平衡訓練數據或選擇屬性的問題，請使用 Weka 的元分類器（您可以嵌套它們）：

平衡：帶 SMOTE 的 FilteredClassifier
功能選擇：AttributeSelectedClassifier，您可以選擇搜索/評估和基本分類器

平衡是最外層的分類器，它使用特征選擇分類器作為它的分類器。

您可以使用Weka Experimenter比較各種設置並獲得統計顯着性結果。 有關詳細信息，請參閱 Weka 手冊 PDF。

在數據不平衡的管道中進行交叉驗證的正確方法

[英]Correct way to do cross validation in a pipeline with imbalanced data

特征選擇和交叉驗證

[英]feature selection and cross validation

數據較少，稀疏和不平衡時的功能選擇

[英]Feature selection when data is less, sparse and imbalanced

如何在sklearn中對不平衡數據集執行交叉驗證

[英]How to perform cross validation for imbalanced datasets in sklearn

如何在 sklearn 的交叉驗證中執行特征選擇（rfecv）

[英]How to perform feature selection (rfecv) in cross validation in sklearn

不平衡數據的特征工程

[英]Feature Engineering on imbalanced data

對特征選擇預處理進行交叉驗證的動機是什么？

[英]What is the motivation for cross validation on feature selection preprocessing?

如何從不平衡數據中創建新的平衡數據框架，以確保隨機選擇記錄？

[英]How do I create a new balanced data frame from an imbalanced data one ensuring a random selection of records?

交叉驗證 - Weka API

[英]Cross Validation - Weka API

如何在weka特征選擇（過濾方法）中的'InfoGainAttributeEval'中進行選擇

[英]How the selection happens in 'InfoGainAttributeEval' in weka feature selection (filter method)

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在數據不平衡的管道中進行交叉驗證的正確方法特征選擇和交叉驗證數據較少，稀疏和不平衡時的功能選擇如何在sklearn中對不平衡數據集執行交叉驗證如何在 sklearn 的交叉驗證中執行特征選擇（rfecv）不平衡數據的特征工程對特征選擇預處理進行交叉驗證的動機是什么？如何從不平衡數據中創建新的平衡數據框架，以確保隨機選擇記錄？交叉驗證 - Weka API 如何在weka特征選擇（過濾方法）中的'InfoGainAttributeEval'中進行選擇

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM