R data.table將NA替換為數字列的均值，將最常值替換為名義值

Question

我有以下data.table

x = structure(list(id1 = c("a", "a", "a", "b", "b", NA), id2 = c(2, 3, NA,3, 4, 5)), .Names = c("id1", "id2"), row.names = c(NA, -6L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x1fe4a78>)

我試圖用不同的策略替換每列中的NA 。 對於數字列，我想用mean替換它，對於factor或character列，我想用最常用的值替換它。 我嘗試了以下但它什么也沒做。

for (j in 1:ncol(x)){
  if(is.numeric(unlist(x[,j,with=FALSE]))){
     m = mean(unlist(x[,j,with=FALSE]))
     set(x,which(is.na(x[[j]])),j,m)
   }else{
     m = sort(table(x),decreasing=TRUE)[[1]]
     set(x,which(is.na(x[[j]])),j,m)
}

Answer 1

使用基本方法，您可以編寫如下函數：

myFun <- function(x) {
  if (is.numeric(x)) {
    x[is.na(x)] <- mean(x, na.rm = TRUE)
    x
  } else {
    x[is.na(x)] <- names(which.max(table(x)))
    x
  }
}

......並應用於：

x[, lapply(.SD, myFun)]
#    id1 id2
# 1:   a 2.0
# 2:   a 3.0
# 3:   a 3.4
# 4:   b 3.0
# 5:   b 4.0
# 6:   a 5.0

請注意，如果存在關系， which.max將采用第一大值。

我想它也可以寫成：

myFun <- function(inDT) {
  for (i in 1:ncol(inDT)) {
    temp <- unlist(inDT[, i, with = FALSE], use.names = FALSE)
    set(inDT, which(is.na(temp)), i, 
        if (is.numeric(temp)) {
          mean(temp, na.rm = TRUE) 
        } else {
          names(which.max(table(temp)))
        } )
  }
  inDT
}

y <- copy(x)

myFun(y)
#    id1 id2
# 1:   a 2.0
# 2:   a 3.0
# 3:   a 3.4
# 4:   b 3.0
# 5:   b 4.0
# 6:   a 5.0

R data.table將NA替換為數字列的均值，將最常值替換為名義值

問題描述

1 個解決方案

解決方案1
6 已采納 2015-04-06 02:27:06

R data.table將NA替換為數字列的均值，將最常值替換為名義值

問題描述

1 個解決方案

解決方案1 6 已采納 2015-04-06 02:27:06

解決方案1
6 已采納 2015-04-06 02:27:06