繁体 English 中英

如何在 weka 中做这些：交叉验证+不平衡数据+特征选择

[英]How to do these in weka: cross validation + imbalanced data + feature selection

原文 2022-12-23 09:22:03 0 1 machine-learning/ weka/ cross-validation/ feature-selection/ imbalanced-data

我有一个不平衡的数据集（分类数据集）。 预处理后：特征个数77个，实例个数1425个（多数类=1196（83.93%），少数类=229（16.07%））。

我想使用 Weka 平台应用这些技术：

拆分数据集（使用 10 折交叉验证）。
然后，平衡训练集（我不知道合适的技术是什么。但假设我将使用 SMOTE）。
然后，减少特征的数量（使用特征选择技术）。
然后，应用这些监督分类器（SVM、KNN、NB、LR、RF、集成“堆叠”）

我的问题是：

这些步骤的顺序是否正确？ 如果不是，正确的顺序是什么？
我如何知道哪种技术适合我的数据集以平衡它？
我应该使用哪些 Weka 工具（例如 FilteredClassifier 等）？

谢谢你。

我的目标是按照相同的顺序执行以下操作：

使用 10 折交叉验证技术拆分数据集。 对于十轮中的每一轮：
使用 SMOTE 平衡训练集。
使用特征选择（过滤方法-信息增益属性评估技术）减少训练集中的特征数量。
应用算法：SVM、KNN、LR、RF、NB 和集成（堆叠）。

因此，我使用 Weka 执行了以下操作：

从预处理选项卡：

我选择了过滤器Multifilter 。
我通过添加两个过滤器来编辑它的属性：
- SMOTE （使用默认设置）作为第一个过滤器。
- AttributeSelection （ InfoGainAttributeEval评估器和Ranker搜索方法）。

从分类选项卡：

我选择了一个分类器（例如 SVM）。
我选择了 10 折交叉验证技术。
然后，我按下Start并得到结果：Accuracy = 88.5614%，Precision = 87.5%，Recall = 88.6%，F-Measure = 87.6%，AUC = 72%。

我的工作正确吗？

1 个解决方案

预处理面板或特征选择选项卡只能用于探索数据（因此得名Weka Explorer ）。

为了合并预处理以解决平衡训练数据或选择属性的问题，请使用 Weka 的元分类器（您可以嵌套它们）：

平衡：带 SMOTE 的 FilteredClassifier
功能选择：AttributeSelectedClassifier，您可以选择搜索/评估和基本分类器

平衡是最外层的分类器，它使用特征选择分类器作为它的分类器。

您可以使用Weka Experimenter比较各种设置并获得统计显着性结果。 有关详细信息，请参阅 Weka 手册 PDF。

在数据不平衡的管道中进行交叉验证的正确方法

[英]Correct way to do cross validation in a pipeline with imbalanced data

特征选择和交叉验证

[英]feature selection and cross validation

数据较少，稀疏和不平衡时的功能选择

[英]Feature selection when data is less, sparse and imbalanced

如何在sklearn中对不平衡数据集执行交叉验证

[英]How to perform cross validation for imbalanced datasets in sklearn

如何在 sklearn 的交叉验证中执行特征选择（rfecv）

[英]How to perform feature selection (rfecv) in cross validation in sklearn

不平衡数据的特征工程

[英]Feature Engineering on imbalanced data

对特征选择预处理进行交叉验证的动机是什么？

[英]What is the motivation for cross validation on feature selection preprocessing?

如何从不平衡数据中创建新的平衡数据框架，以确保随机选择记录？

[英]How do I create a new balanced data frame from an imbalanced data one ensuring a random selection of records?

交叉验证 - Weka API

[英]Cross Validation - Weka API

如何在weka特征选择（过滤方法）中的'InfoGainAttributeEval'中进行选择

[英]How the selection happens in 'InfoGainAttributeEval' in weka feature selection (filter method)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在数据不平衡的管道中进行交叉验证的正确方法特征选择和交叉验证数据较少，稀疏和不平衡时的功能选择如何在sklearn中对不平衡数据集执行交叉验证如何在 sklearn 的交叉验证中执行特征选择（rfecv）不平衡数据的特征工程对特征选择预处理进行交叉验证的动机是什么？如何从不平衡数据中创建新的平衡数据框架，以确保随机选择记录？交叉验证 - Weka API 如何在weka特征选择（过滤方法）中的'InfoGainAttributeEval'中进行选择

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM