為什么 na.rm=TRUE 不適用於 R 中的加權 SD？

Question

我有一個包含房價的 10 列數據框，在某些情況下，包括 NA。 我想創建一個新的weighted sd列，但是對於具有幾個 NA 的行，我收到以下錯誤：

Error in e2[[j]] : subscript out of bounds

我每行使用的內容（適用於沒有 NA 的行）：

weighted.sd(my.df[40,2:10], c(9,9,9,9,9,9,9,9,9), na.rm = TRUE)

例子

library(radiant.data)
data("mtcars")
mtcars[mtcars == 0] <- NA
weighted.sd(mtcars[18,1:11], c(11,11,11,11,11,11,11,11,11,11,11), na.rm = TRUE)#works
weighted.sd(mtcars[5,1:11], c(11,11,11,11,11,11,11,11,11,11,11), na.rm = TRUE)#issue here

這里有什么問題，如何創建一個每行加權 SD 的新列？

Answer 1

問題似乎是weighted.sd()不會像您期望的那樣跨數據框的行運行。

運行weighted.sd我們可以看到代碼：

weighted.sd <- function (x, wt, na.rm = TRUE) 
{
  if (na.rm) {
    x <- na.omit(x)
    wt <- na.omit(wt)
  }
  wt <- wt/sum(wt)
  wm <- weighted.mean(x, wt)
  sqrt(sum(wt * (x - wm)^2))
}

在您的示例中，您沒有輸入x的向量，而是輸入數據框的一行。 由於NA值 - 而不是向量的元素，函數na.omit(x)將刪除整行。

您可以嘗試使用as.numeric()將行轉換為向量，但由於如何從wt刪除NA ，此函數也會失敗。

看起來像這樣的東西可能就是你想要的。 當然，您必須小心為x輸入有效的列。

weighted.sd2 <- function (x, wt, na.rm = TRUE) {

  x <- as.numeric(x)

  if (na.rm) {
    is_na <- is.na(x)

    x <- x[!is_na]
    wt <- wt[!is_na]
  }

  wt <- wt/sum(wt)
  wm <- weighted.mean(x, wt)
  sqrt(sum(wt * (x - wm)^2))
}

weighted.sd2(mtcars[18,1:11], c(11,11,11,11,11,11,11,11,11,11,11), na.rm = TRUE)#works
# [1] 26.76086
weighted.sd2(mtcars[5,1:11], c(11,11,11,11,11,11,11,11,11,11,11), na.rm = TRUE)#issue here
# [1] 116.545

要將其應用於所有列，您可以使用apply() 。

mtcars$weighted.sd <- apply(mtcars[,1:11], 1, weighted.sd2, wt = rep(11, 11))

                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb weighted.sd
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46 NA  1    4    4    52.61200
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02 NA  1    4    4    52.58011
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1    37.06108
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1 NA    3    1    78.36300
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02 NA NA    3    2   116.54503
...

Answer 2

如果你按 CTRL+點擊weigted.sd函數，你可以看到源代碼：

function (x, wt, na.rm = TRUE) 
{
  if (na.rm) {
    x <- na.omit(x)
    wt <- na.omit(wt)
  }
  wt <- wt/sum(wt)
  wm <- weighted.mean(x, wt)
  sqrt(sum(wt * (x - wm)^2))
}

當您運行它時，值向量包含沒有 NA 的值並且它會減少。 但是權重向量的長度與之前相同，導致錯誤。

一個解決方案是：

weighted.sd(mtcars[5,!is.na(mtcars[5,1:11])], 
c(11,11,11,11,11,11,11,11,11,11,11)[!is.na(mtcars[5,1:11])], na.rm = TRUE)

它並不優雅......但它可以完成工作！

為什么 na.rm=TRUE 不適用於 R 中的加權 SD？

問題描述

2 個解決方案

解決方案1
1 已采納 2020-01-30 13:58:22

解決方案2
0 2020-01-30 13:59:26

為什么 na.rm=TRUE 不適用於 R 中的加權 SD？

問題描述

2 個解決方案

解決方案1 1 已采納 2020-01-30 13:58:22

解決方案2 0 2020-01-30 13:59:26

解決方案1
1 已采納 2020-01-30 13:58:22

解決方案2
0 2020-01-30 13:59:26