在R w / PLYR中提取組回歸系數

Question

我正在嘗試為我的數據集中的每個郵政編碼運行回歸並將系數保存到數據框但我遇到了麻煩。

每當我運行下面的代碼時，我得到一個稱為“系數”的數據框，其中包含每個郵政編碼，但每個郵政編碼的截距和系數等於簡單回歸lm(Sealed$hhincome ~ Sealed$square_footage)的結果lm(Sealed$hhincome ~ Sealed$square_footage) 。

當我在下面的鏈接中運行Ranmath示例中指示的代碼時，一切都按預期工作。 經過STATA多年后我是R的新手，所以任何幫助都會非常感激:)

R通過lapply命令從多次回歸中提取回歸系數

library(plyr)
Sealed <- read.csv("~/Desktop/SEALED.csv")

x <- function(df) {
      lm(Sealed$hhincome ~ Sealed$square_footage)
}

regressions <- dlply(Sealed, .(Sealed$zipcode), x)
coefficients <- ldply(regressions, coef)

Answer 1

因為dlply采用了一個允許將額外參數傳遞給函數的...參數，所以你可以使事情變得更簡單：

dlply(Sealed,.(zipcode),lm,formula=hhincome~square_footage)

lm的前兩個參數是formula和data 。 由於此處指定了formula ，因此lm將獲取它給出的下一個參數（相關的特定於郵政編碼的Sealed塊）作為data參數...

Answer 2

您正在應用該功能：

x <- function(df) {
      lm(Sealed$hhincome ~ Sealed$square_footage)
}

對於數據的每個子集，因此我們不應對每次輸出的確切結果感到驚訝

lm(Sealed$hhincome ~ Sealed$square_footage)

對？ 嘗試用函數中的df替換Sealed 。 這樣你就是指傳遞給函數的每個單獨變量中的變量，而不是Sealed數據框中的整個變量。

Answer 3

問題不plyr ，而在於函數的定義。 你正在調用一個函數，但沒有對變量做任何事情。

作為類比，

 myFun <- function(x) {
    3 * 7
  }

    >  myFun(2)
    [1] 21
    >  myFun(578)
    [1] 21

如果你在x的不同值上運行這個函數，它仍然會給你21，無論x是什么。 也就是說，函數中沒有x的引用。 在我愚蠢的例子中，修正是顯而易見的; 在你上面的函數中，混淆是可以理解的。 $hhincome和$square_footage應該可以作為變量。

但是你希望你的x在$ 之前變化。 正如@Joran正確指出的那樣，交換sealed$hhincome與df$hhincome （同樣為$squ.. ）這將有所幫助。

在R w / PLYR中提取組回歸系數

問題描述

3 個解決方案

解決方案1
3 2012-11-16 02:41:13

解決方案2
2 2012-11-15 22:45:37

解決方案3
1 2012-11-15 23:27:44

在R w / PLYR中提取組回歸系數

問題描述

3 個解決方案

解決方案1 3 2012-11-16 02:41:13

解決方案2 2 2012-11-15 22:45:37

解決方案3 1 2012-11-15 23:27:44

解決方案1
3 2012-11-16 02:41:13

解決方案2
2 2012-11-15 22:45:37

解決方案3
1 2012-11-15 23:27:44