繁体   English   中英

多项式Lo​​gistic回归中的分类因变量

[英]Categorical dependent variable in Multinomial Logistic Regression

我在数据集上使用scikit-learn LogisticRegression ,其中因变量是具有10个可能值(标记为1到10)的分类变量。 我的统计知识还很严格。

每个输出值的概率固有地受它们必须加1的要求的约束,而我对数学的理解是,需要有一个reference category (例如,最可能的类别),并且每个其他类别的概率然后相对于参考类别的概率表示9个结果,因此每个解释变量实际上有9个系数(而不是10个)。

我不清楚是否通过LogisticRegression.fit()方法自动完成此操作,如果是,它是否假设第一类是引用( 1 )? 还是我需要以某种方式处理输入数据,所以只有9个类别? 还是我忽略这一点并在输出时使用10个系数?

LogisticRegressionscikit-learn实现使用.fit()方法自动处理所有幕后工作。 这就是它是如此有用的主要原因。 他们的fit / transform / predict API直观易用,向用户隐藏了所有算法复杂性。

它们的实现是“一对多休息”方案,其中针对每个类别对分类器进行训练,以一定的置信度确定该类别中的值或不该类别中的值。 为了进行预测,将比较分类器(您的情况下为10个分类器)的各种置信度,并选择置信度最高的分类。 为了计算概率,将此置信度矢量归一化为1以解决预测中的任何潜在错误。

还有一个multiclass关键字参数,该参数使用交叉熵损失直接与一个分类器同时预测所有10个类的概率。 这可能更类似于您已阅读的实现,但是有关scikit-learn的实现的文档很少。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM