簡體   English   中英

多項式Lo​​gistic回歸中的分類因變量

[英]Categorical dependent variable in Multinomial Logistic Regression

我在數據集上使用scikit-learn LogisticRegression ,其中因變量是具有10個可能值(標記為1到10)的分類變量。 我的統計知識還很嚴格。

每個輸出值的概率固有地受它們必須加1的要求的約束,而我對數學的理解是,需要有一個reference category (例如,最可能的類別),並且每個其他類別的概率然后相對於參考類別的概率表示9個結果,因此每個解釋變量實際上有9個系數(而不是10個)。

我不清楚是否通過LogisticRegression.fit()方法自動完成此操作,如果是,它是否假設第一類是引用( 1 )? 還是我需要以某種方式處理輸入數據,所以只有9個類別? 還是我忽略這一點並在輸出時使用10個系數?

LogisticRegressionscikit-learn實現使用.fit()方法自動處理所有幕后工作。 這就是它是如此有用的主要原因。 他們的fit / transform / predict API直觀易用,向用戶隱藏了所有算法復雜性。

它們的實現是“一對多休息”方案,其中針對每個類別對分類器進行訓練,以一定的置信度確定該類別中的值或不該類別中的值。 為了進行預測,將比較分類器(您的情況下為10個分類器)的各種置信度,並選擇置信度最高的分類。 為了計算概率,將此置信度矢量歸一化為1以解決預測中的任何潛在錯誤。

還有一個multiclass關鍵字參數,該參數使用交叉熵損失直接與一個分類器同時預測所有10個類的概率。 這可能更類似於您已閱讀的實現,但是有關scikit-learn的實現的文檔很少。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM