繁体   English   中英

如何使用scikit-learn预测具有分类和连续特征的二进制结果?

[英]how to predict binary outcome with categorical and continuous features using scikit-learn?

我需要为分类问题选择模型和机器学习算法的建议。

我试图预测一个对象的二进制结果。 我的数据集中有500,000条记录,还有20个连续和分类特征。 每个主题都有10--20条记录。 数据标有其结果。

到目前为止,我正在考虑基于此处的备忘单的逻辑回归模型和核近似。

我不确定在R或Python中实现此功能时从何处开始。

谢谢!

在任何数据挖掘项目中,选择算法和优化参数都是一项艰巨的任务。 因为它必须针对您的数据和问题进行定制。 尝试使用不同的算法,例如SVM,随机森林,逻辑回归,KNN和...,并对每个算法进行交叉验证,然后进行比较。 您可以在病态学习中使用GridSearch尝试不同的参数并为每种算法优化参数。 也尝试这个项目 ,用遗传算法测试一系列参数

特征

如果分类功能没有太多可能的不同值,则可能需要查看sklearn.preprocessing.OneHotEncoder

型号选择

“最佳”模型的选择主要取决于可用训练数据的数量以及您期望获得的决策边界的简单性。

您可以尝试将尺寸降低到2或3维。 然后,您可以可视化数据并查看是否存在良好的决策边界。

通过50万个训练示例,您可以考虑使用神经网络。 我可以向初学者推荐Keras ,向那些了解神经网络如何工作的人推荐TensorFlow

您还应该知道有Ensemble方法

您已经发现的sklearn教程中,有一个很好的备忘单:


(来源: scikit-learn.org

只需尝试一下,比较不同的结果。 没有更多信息,就不可能给您更好的建议。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM