繁体 English 中英

如何使用scikit-learn预测具有分类和连续特征的二进制结果？

[英]how to predict binary outcome with categorical and continuous features using scikit-learn?

原文 2016-07-29 14:44:28 0 2 python/ r/ machine-learning

我需要为分类问题选择模型和机器学习算法的建议。

我试图预测一个对象的二进制结果。 我的数据集中有500,000条记录，还有20个连续和分类特征。 每个主题都有10--20条记录。 数据标有其结果。

到目前为止，我正在考虑基于此处的备忘单的逻辑回归模型和核近似。

我不确定在R或Python中实现此功能时从何处开始。

谢谢！

2 个解决方案

在任何数据挖掘项目中，选择算法和优化参数都是一项艰巨的任务。 因为它必须针对您的数据和问题进行定制。 尝试使用不同的算法，例如SVM，随机森林，逻辑回归，KNN和...，并对每个算法进行交叉验证，然后进行比较。 您可以在病态学习中使用GridSearch尝试不同的参数并为每种算法优化参数。 也尝试这个项目，用遗传算法测试一系列参数

特征

如果分类功能没有太多可能的不同值，则可能需要查看sklearn.preprocessing.OneHotEncoder 。

型号选择

“最佳”模型的选择主要取决于可用训练数据的数量以及您期望获得的决策边界的简单性。

您可以尝试将尺寸降低到2或3维。 然后，您可以可视化数据并查看是否存在良好的决策边界。

通过50万个训练示例，您可以考虑使用神经网络。 我可以向初学者推荐Keras ，向那些了解神经网络如何工作的人推荐TensorFlow 。

您还应该知道有Ensemble方法。

在您已经发现的sklearn教程中，有一个很好的备忘单：

_{（来源： scikit-learn.org ）}

只需尝试一下，比较不同的结果。 没有更多信息，就不可能给您更好的建议。

使用Scikit-Learn的SVR，如何将分类和连续特征结合起来预测目标？

[英]Using Scikit-Learn's SVR, how do you combine categorical and continuous features in predicting the target?

使用scikit-learn处理分类特征

[英]Handling categorical features using scikit-learn

scikit-learn使用什么距离函数来分类特征？

[英]What distance function is scikit-learn using for categorical features?

使用scikit-learn处理太多分类功能

[英]handling too many categorical features using scikit-learn

使用 scikit-learn 对分类特征进行特征选择

[英]Feature selection using scikit-learn on categorical features

如果不是，可以使用scikit-learn而不是二进制分类来预测变量

[英]can one predict variable using scikit-learn rather binary classification if yes than how

使用scikit-Learn建立乘法分类模型

[英]Using scikit-Learn for a multiplicative, categorical model

如何在 scikit-learn 中预测时间序列？

[英]How to predict time series in scikit-learn?

scikit-learn，线性回归中的分类（但数值）特征

[英]scikit-learn, categorical (but numerical) features in Linear Regression

如何从 scikit-learn predict_proba 中恢复输入分类符号？

[英]How to recover input categorical symbols from scikit-learn predict_proba?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Scikit-Learn的SVR，如何将分类和连续特征结合起来预测目标？使用scikit-learn处理分类特征 scikit-learn使用什么距离函数来分类特征？使用scikit-learn处理太多分类功能使用 scikit-learn 对分类特征进行特征选择如果不是，可以使用scikit-learn而不是二进制分类来预测变量使用scikit-Learn建立乘法分类模型如何在 scikit-learn 中预测时间序列？ scikit-learn，线性回归中的分类（但数值）特征如何从 scikit-learn predict_proba 中恢复输入分类符号？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM