如何使用statsmodels和sklearn在回歸中添加控制變量？

Question

我正在嘗試使用statsmodels和sklearn進行多元線性回歸，同時控制諸如社會經濟地位（年齡，性別，種族）之類的協變量。 我已經在SPSS中做到了這一點，這非常容易，因為我可以單擊要控制的變量，但是我必須切換到python，並且不知道是否有任何函數可以執行此操作？ 非常感謝！

Answer 1

如果我正確理解了您的問題，那么您正在嘗試找出如何編寫多元回歸的代碼？

您想做：

import statsmodels.formula.api as smf
results = smf.ols('y ~ x1 + age', data=df).fit()
print(results.summary())

這會將y回歸到您的x1和年齡。

如果要包括性別或種族，則需要引入虛擬變量。 Statsmodels可以通過在您的偽變量周圍編寫C（）來快速做到這一點。 這使變量成為類別變量（請記住，數據中的第一個種族或性別將被省略）。

results_2 = smf.ols('y ~ x1 + age + C(ethnicity) + C(gender)', data=df).fit()
print(results_2.summary())

希望能有所幫助。

如何使用statsmodels和sklearn在回歸中添加控制變量？

問題描述

1 個解決方案

解決方案1
0 2019-09-19 18:50:22

如何使用statsmodels和sklearn在回歸中添加控制變量？

問題描述

1 個解決方案

解決方案1 0 2019-09-19 18:50:22

解決方案1
0 2019-09-19 18:50:22