繁体   English   中英

如何在 weka 中做这些:交叉验证+不平衡数据+特征选择

[英]How to do these in weka: cross validation + imbalanced data + feature selection

我有一个不平衡的数据集(分类数据集)。 预处理后:特征个数77个,实例个数1425个(多数类=1196(83.93%),少数类=229(16.07%))。

我想使用 Weka 平台应用这些技术:

  1. 拆分数据集(使用 10 折交叉验证)。
  2. 然后,平衡训练集(我不知道合适的技术是什么。但假设我将使用 SMOTE)。
  3. 然后,减少特征的数量(使用特征选择技术)。
  4. 然后,应用这些监督分类器(SVM、KNN、NB、LR、RF、集成“堆叠”)

我的问题是:

  • 这些步骤的顺序是否正确? 如果不是,正确的顺序是什么?
  • 我如何知道哪种技术适合我的数据集以平衡它?
  • 我应该使用哪些 Weka 工具(例如 FilteredClassifier 等)?

谢谢你。


我的目标是按照相同的顺序执行以下操作:

  1. 使用 10 折交叉验证技术拆分数据集。 对于十轮中的每一轮:
  2. 使用 SMOTE 平衡训练集。
  3. 使用特征选择(过滤方法-信息增益属性评估技术)减少训练集中的特征数量。
  4. 应用算法:SVM、KNN、LR、RF、NB 和集成(堆叠)。

因此,我使用 Weka 执行了以下操作:

  1. 预处理选项卡:
  • 我选择了过滤器Multifilter
  • 我通过添加两个过滤器来编辑它的属性:
    • SMOTE (使用默认设置)作为第一个过滤器。
    • AttributeSelectionInfoGainAttributeEval评估器和Ranker搜索方法)。
  1. 分类选项卡:
  • 我选择了一个分类器(例如 SVM)。
  • 我选择了 10 折交叉验证技术。
  • 然后,我按下Start并得到结果:Accuracy = 88.5614%,Precision = 87.5%,Recall = 88.6%,F-Measure = 87.6%,AUC = 72%。

我的工作正确吗?

预处理面板或特征选择选项卡只能用于探索数据(因此得名Weka Explorer )。

为了合并预处理以解决平衡训练数据或选择属性的问题,请使用 Weka 的元分类器(您可以嵌套它们):

  • 平衡:带 SMOTE 的 FilteredClassifier
  • 功能选择:AttributeSelectedClassifier,您可以选择搜索/评估和基本分类器

平衡是最外层的分类器,它使用特征选择分类器作为它的分类器。

您可以使用Weka Experimenter比较各种设置并获得统计显着性结果。 有关详细信息,请参阅 Weka 手册 PDF。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM