[英]Subset columns if they meet a condition
我的任務:
在以下情況下,CA + CC應更改為factorial
。
CA = c(1,0,1,0,1)
CB = c(1,12,21,0,7)
CC = c(1,0,1,0,1)
mydf = data.frame(CA, CB, CC)
str(mydf)
'data.frame': 5 obs. of 3 variables:
$ CA: num 1 0 1 0 1
$ CB: num 1 12 21 0 7
$ CC: num 1 0 1 0 1
為什么? 因為這些行當前被描述為integer
和number
而不是factors
。 而且我假設某些機器學習算法會把事情混在一起。
使用baseR的一種方法:
#if all the values in a column are either 0 or 1 convert to factor
mydf[] <- lapply(mydf, function(x) {
if(all(x %in% 0:1)) {
as.factor(x)
} else {
x
}
})
出:
str(mydf)
#'data.frame': 5 obs. of 3 variables:
# $ CA: Factor w/ 2 levels "0","1": 2 1 2 1 2
# $ CB: num 1 12 21 0 7
# $ CC: Factor w/ 2 levels "0","1": 2 1 2 1 2**
dplyr
的mutate_if
另一種方法
library(dplyr)
is_one_zero <- function(x) {
res <- all(unique(x) %in% c(1, 0))
return(res)
}
out <- mydf %>%
mutate_if(is_one_zero, as.factor)
str(out)
#'data.frame': 5 obs. of 3 variables:
# $ CA: Factor w/ 2 levels "0","1": 2 1 2 1 2
# $ CB: num 1 12 21 0 7
# $ CC: Factor w/ 2 levels "0","1": 2 1 2 1 2
這是在R基中執行此操作的另一種方法
cols <- colSums(mydf == 0 | mydf == 1) == nrow(mydf)
mydf[cols] <- lapply(mydf[cols], as.factor)
str(mydf)
#'data.frame': 5 obs. of 3 variables:
# $ CA: Factor w/ 2 levels "0","1": 2 1 2 1 2
# $ CB: num 1 12 21 0 7
# $ CC: Factor w/ 2 levels "0","1": 2 1 2 1 2
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.