R條件標准差

Question

我有一個很大的數據集，我需要根據其他列中的行數來獲取Main列的標准差。 這是一個示例數據集：

df1 <- data.frame(
  Main = c(0.33, 0.57, 0.60, 0.51), 
  B = c(NA, NA, 0.09,0.19), 
  C = c(NA, 0.05, 0.07, 0.05), 
  D = c(0.23, 0.26, 0.23, 0.26)
)

View(df1)
#   Main    B       C       D  
# 1 0.33    NA      NA      0.23
# 2 0.57    NA      0.05    0.26
# 3 0.60    0.09    0.07    0.23
# 4 0.51    0.19    0.05    0.26

以B列為例，由於行1＆2為NA ，其標准偏差為sd(df1[3:4,1]) ； C&D列將為sd(df1[2:4,1])和sd(df1[1:4,1]) 。 因此，結果將是：

#     B       C       D  
# 1   0.06    0.05    0.12

我做了以下操作，但只返回了一個數字0.0636

df2 <- df1[,-1]!=0

sd(df1[df2,1], na.rm = T)

我的數據集有更多列，我想知道是否有更有效的方法來完成它？ 非常感謝！

Answer 1

嘗試：

sapply(df1[,-1], function(x) sd(df1[!is.na(x), 1]))

#          B          C          D 
# 0.06363961 0.04582576 0.12093387

Answer 2

x <- colnames(df) # list all columns you want to calculate sd of 
value <- sapply(1:length(x) , function(i) sd(df[,x[i],drop=TRUE], na.rm = T))
names(value) <- x

#          Main          B          C          D 
#    0.12093387 0.07071068 0.01154701 0.01732051

Answer 3

我們可以從matrixStats用colSds獲得

library(matrixStats)
colSds(`dim<-`(df1[,1][NA^is.na(df1[-1])*row(df1[-1])], dim(df1[,-1])), na.rm = TRUE)
#[1] 0.06363961 0.04582576 0.12093387

R條件標准差

問題描述

3 個解決方案

解決方案1
1 已采納 2016-12-01 19:53:08

解決方案2
0 2016-12-01 19:45:28

解決方案3
0 2016-12-01 19:50:37

R條件標准差

問題描述

3 個解決方案

解決方案1 1 已采納 2016-12-01 19:53:08

解決方案2 0 2016-12-01 19:45:28

解決方案3 0 2016-12-01 19:50:37

解決方案1
1 已采納 2016-12-01 19:53:08

解決方案2
0 2016-12-01 19:45:28

解決方案3
0 2016-12-01 19:50:37