[英]How to interpret the summary table for Python OLS Statsmodel?
我有一個連續的因變量y和一個獨立的類別變量x,名為control_grid。 x包含兩個變量:c和g
我正在使用python包statsmodel嘗試查看自變量是否對y變量有重大影響,例如:
model = smf.ols('y ~ c(x)', data=df)
results = model.fit()
table = sm.stats.anova_lm(results, typ=2)
打印表將得出以下結果:
OLS Regression Results
==============================================================================
Dep. Variable: sedimentation R-squared: 0.167
Model: OLS Adj. R-squared: 0.165
Method: Least Squares F-statistic: 86.84
Date: Fri, 13 Jul 2018 Prob (F-statistic): 5.99e-19
Time: 16:15:51 Log-Likelihood: -2019.2
No. Observations: 436 AIC: 4042.
Df Residuals: 434 BIC: 4050.
Df Model: 1
Covariance Type: nonrobust
=====================================================================================
coef std err t P>|t| [0.025 0.975]
-------------------------------------------------------------------------------------
Intercept -6.0243 1.734 -3.474 0.001 -9.433 -2.616
control_grid[T.g] 22.2504 2.388 9.319 0.000 17.558 26.943
==============================================================================
Omnibus: 30.623 Durbin-Watson: 1.064
Prob(Omnibus): 0.000 Jarque-Bera (JB): 45.853
Skew: -0.510 Prob(JB): 1.10e-10
Kurtosis: 4.218 Cond. No. 2.69
==============================================================================
在顯示系數的表格中,我不了解我的因變量的描述。
它說:
control_grid[T.g]
什么是“ T”? 並且它僅查看兩個變量之一嗎? 僅作用於“ g”而不作用於“ c”?
如果您去這里,您會發現在摘要中還顯示了所有四個變量“ N”,“ S”,“ E”和“ W”的分類數據區域。
PS我的數據看起來像這樣:
index sedimentation control_grid
0 5.0 c
1 10.0 g
2 0.0 c
3 -10.0 c
4 0.0 g
5 -20.0 g
6 30.0 g
7 40.0 g
8 -10.0 c
9 45.0 g
10 45.0 g
11 10.0 c
12 10.0 g
13 10.0 c
14 6.0 g
15 10.0 c
16 29.0 c
17 3.0 g
18 23.0 c
19 34.0 g
我不是專家,但我會盡力解釋。 首先,您應該知道ANOVA是回歸分析,因此您正在建立模型Y〜X,但在Anova X中則是類別變量。 在您的情況下,Y =沉降,而X = control_grid(這是絕對的),因此模型為“沉降〜control_grid”。
Ols執行回歸分析,因此它計算線性模型的參數:Y = Bo + B1X,但是,鑒於您的X是分類的,您的X是偽編碼的,這意味着X只能是0或1,這與分類是一致的數據。 請注意,在Anova中,估計的參數數量等於類別數量-1,您的數據中只有2個類別(g和c),因此ols報告中僅顯示一個參數。 “ Tg”表示此參數對應於“ g”類別。 那么您的模型是Y = Bo + Tg * X
現在,將Tc的參數視為Bo,因此實際上,您的模型是:
Y = Tc X + Tg X其中X是O或1,具體取決於它是“ c”還是“ g”。
所以,你在問:
1)什么是“ T”? T(Tg)僅指示您估計和顯示的參數對應於類別“ g”。
2)它是否僅查看兩個變量之一? 不,分析估計了兩個類別(c和g)的參數,但是截距Bo代表數據“ c”中該類別其他級別的系數。
3)僅在“ g”的作用而不是在“ c”的作用? 不,實際上,分析着眼於“ g”和“ c”的影響。 如果查看系數Tg和截距(Tc)的值,則可以了解它們是否有意義(p值),並且可以說出它們是否對“沉降”有影響。
干杯,
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.