簡體 English 中英

使用MATLAB進行簡單的二元邏輯回歸

[英]Simple binary logistic regression using MATLAB

原文 2014-03-19 00:15:24 3 1 matlab/ classification/ probability/ confidence-interval/ logistic-regression

我正在使用MATLAB進行邏輯回歸，以解決一個簡單的分類問題。 我的協變量是一個介於0和1之間的連續變量，而我的分類響應是0（不正確）或1（正確）的二進制變量。

我正在尋找邏輯回歸來建立預測器，該預測器將輸出某些輸入觀察的概率（例如，如上所述的連續變量）是正確的或不正確的。 雖然這是一個相當簡單的場景，但我在MATLAB中運行它時遇到了一些麻煩。

我的方法如下：我有一個列向量X ，它包含連續變量的值，另一個大小相等的列向量Y包含每個X值的已知分類（例如0或1）。 我正在使用以下代碼：

[b,dev,stats] = glmfit(X,Y,'binomial','link','logit');

然而，這給出了無意義的結果，其中p = 1.000 ，系數（ b ）非常高（-650.5,1320.1），並且相關的標准誤差值大約為1e6。

然后我嘗試使用其他參數來指定二項式樣本的大小：

glm = GeneralizedLinearModel.fit(X,Y,'distr','binomial','BinomialSize',size(Y,1));

這給了我更符合我的預期的結果。 我提取系數，使用glmval創建估計值（ Y_fit = glmval(b,[0:0.01:1],'logit'); ），並為擬合創建一個數組（ X_fit = linspace(0,1) ）。 當我使用figure, plot(X,Y,'o',X_fit,Y_fit'-')重疊原始數據和模型的figure, plot(X,Y,'o',X_fit,Y_fit'-')模型的結果圖基本上看起來像''的1/4。具有邏輯回歸圖的典型S形圖。

我的問題如下：

1）為什么我使用glmfit產生奇怪的結果？
2）我應該如何解決我的初始問題：給定一些輸入值，它的分類是正確的概率是多少？
3）如何獲得模型參數的置信區間？ glmval應該能夠輸入glmfit的stats輸出，但是我使用glmfit並沒有給出正確的結果。

任何評論和意見都非常有用，謝謝！

更新（2014年3月18日）

我發現mnrval似乎給出了合理的結果。 我可以用[b_fit,dev,stats] = mnrfit(X,Y+1); 其中Y+1簡單地將我的二元分類器變為名義分類器。

我可以遍歷[pihat,lower,upper] = mnrval(b_fit,loopVal(ii),stats); 獲得各種pihat概率值，其中loopVal = linspace(0,1)或一些適當的輸入范圍和`ii = 1：length（loopVal）'。

該stats參數有很大的相關系數（0.9973），但對於P值b_fit是0.0847和0.0845，這我不太知道如何解釋。 有什么想法嗎？ 另外，為什么會mrnfit在工作glmfit在我的例子嗎？ 我應該注意到，當使用GeneralizedLinearModel.fit時，系數的p值都是p<<0.001 ，系數估計也是非常不同的。