在 Python 中使用 Stata 數據運行 OLS 時出現問題

Question

讀取 Stata 數據后，我在 Python 中運行 OLS 時遇到問題。 以下是我的代碼和錯誤信息

import pandas as pd  # To read data
import numpy as np
import statsmodels.api as sm

gss = pd.read_stata("gssSample.dta", preserve_dtypes=False)
X = gss[['age', 'impinc' ]]
y = gss[['educ']]
X = sm.add_constant(X) # adding a constant
model = sm.OLS(y, X).fit()
print(model.summary())

錯誤消息說：

ValueError: Pandas data cast to numpy dtype of object. Check input data with np.asarray(data).

那么有什么想法可以運行這個簡單的 OLS 嗎？

Answer 1

您的age變量包含一個值"89 or older" ，這導致它被讀取為一個字符串，這不是statsmodels的有效輸入。 你必須處理它，這樣它才能被讀作 integer 或浮點數，例如：

gss = pd.read_stata("gssSample.dta", preserve_dtypes=False)
gss = gss[gss.age != '89 or older']
gss['age'] = gss.age.astype(float)
X = gss[['age', 'impinc' ]]
y = gss[['educ']]
X = sm.add_constant(X) # adding a constant
model = sm.OLS(y, X).fit()
print(model.summary())

PS 我並不是說在age == "89 or older"的地方放棄觀察是最好的方法。 你必須決定如何最好地處理這個問題。 如果你想在你的 model 中有一個分類變量，你必須先創建虛擬變量。

編輯：如果您的.dta 文件包含帶有值標簽的數值，則默認情況下值標簽將用作值，導致它被讀取為字符串。 您可以將convert_categoricals=False與pd.read_stata一起使用來讀入數值。

Answer 2

@Wouter 解決方案的另一個第二行可能是：

gss.loc[gss.age=='89 or older','age']='89'

有關更多詳細信息，請參閱此關於基於條件替換的討論。

當然，這種替換是否合適取決於您的用例。

在 Python 中使用 Stata 數據運行 OLS 時出現問題

問題描述

2 個解決方案

解決方案1
4 2020-08-31 19:50:34

解決方案2
0 2020-09-01 01:52:35

在 Python 中使用 Stata 數據運行 OLS 時出現問題

問題描述

2 個解決方案

解決方案1 4 2020-08-31 19:50:34

解決方案2 0 2020-09-01 01:52:35

解決方案1
4 2020-08-31 19:50:34

解決方案2
0 2020-09-01 01:52:35