如何解釋Python OLS Statsmodel的摘要表？

Question

我有一個連續的因變量y和一個獨立的類別變量x，名為control_grid。 x包含兩個變量：c和g

我正在使用python包statsmodel嘗試查看自變量是否對y變量有重大影響，例如：

model = smf.ols('y ~ c(x)', data=df)
results = model.fit()
table = sm.stats.anova_lm(results, typ=2)

打印表將得出以下結果：

     OLS Regression Results                            
==============================================================================
Dep. Variable:          sedimentation   R-squared:                       0.167
Model:                            OLS   Adj. R-squared:                  0.165
Method:                 Least Squares   F-statistic:                     86.84
Date:                Fri, 13 Jul 2018   Prob (F-statistic):           5.99e-19
Time:                        16:15:51   Log-Likelihood:                -2019.2
No. Observations:                 436   AIC:                             4042.
Df Residuals:                     434   BIC:                             4050.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
=====================================================================================
                        coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------
Intercept            -6.0243      1.734     -3.474      0.001      -9.433      -2.616
control_grid[T.g]    22.2504      2.388      9.319      0.000      17.558      26.943
==============================================================================
Omnibus:                       30.623   Durbin-Watson:                   1.064
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               45.853
Skew:                          -0.510   Prob(JB):                     1.10e-10
Kurtosis:                       4.218   Cond. No.                         2.69
==============================================================================

在顯示系數的表格中，我不了解我的因變量的描述。

它說：

control_grid[T.g]

什么是“ T”？ 並且它僅查看兩個變量之一嗎？ 僅作用於“ g”而不作用於“ c”？

如果您去這里，您會發現在摘要中還顯示了所有四個變量“ N”，“ S”，“ E”和“ W”的分類數據區域。

PS我的數據看起來像這樣：

index         sedimentation control_grid
0             5.0            c
1            10.0            g
2             0.0            c
3           -10.0            c
4             0.0            g
5           -20.0            g
6            30.0            g
7            40.0            g
8           -10.0            c
9            45.0            g
10           45.0            g
11           10.0            c
12           10.0            g
13           10.0            c
14            6.0            g
15           10.0            c
16           29.0            c
17            3.0            g
18           23.0            c
19           34.0            g

Answer 1

我不是專家，但我會盡力解釋。 首先，您應該知道ANOVA是回歸分析，因此您正在建立模型Y〜X，但在Anova X中則是類別變量。 在您的情況下，Y =沉降，而X = control_grid（這是絕對的），因此模型為“沉降〜control_grid”。

Ols執行回歸分析，因此它計算線性模型的參數：Y = Bo + B1X，但是，鑒於您的X是分類的，您的X是偽編碼的，這意味着X只能是0或1，這與分類是一致的數據。 請注意，在Anova中，估計的參數數量等於類別數量-1，您的數據中只有2個類別（g和c），因此ols報告中僅顯示一個參數。 “ Tg”表示此參數對應於“ g”類別。 那么您的模型是Y = Bo + Tg * X

現在，將Tc的參數視為Bo，因此實際上，您的模型是：

Y = Tc X + Tg X其中X是O或1，具體取決於它是“ c”還是“ g”。

所以，你在問：

1）什么是“ T”？ T（Tg）僅指示您估計和顯示的參數對應於類別“ g”。

2）它是否僅查看兩個變量之一？ 不，分析估計了兩個類別（c和g）的參數，但是截距Bo代表數據“ c”中該類別其他級別的系數。

3）僅在“ g”的作用而不是在“ c”的作用？ 不，實際上，分析着眼於“ g”和“ c”的影響。 如果查看系數Tg和截距（Tc）的值，則可以了解它們是否有意義（p值），並且可以說出它們是否對“沉降”有影響。

干杯，

如何解釋Python OLS Statsmodel的摘要表？

問題描述

1 個解決方案

解決方案1
1 已采納 2018-08-28 23:50:20

如何解釋Python OLS Statsmodel的摘要表？

問題描述

1 個解決方案

解決方案1 1 已采納 2018-08-28 23:50:20

解決方案1
1 已采納 2018-08-28 23:50:20