R自定义函数以清理数据

Question

我正在尝试制作一个自定义的R脚本，以帮助我在做很多有趣的事情之前清理数据。 当前数据集中的许多列都具有yes / no值，我认为如果将它们设为二进制1/0值将更容易浏览。 当前集有10列这样做，而这样做十次确实起作用：

sd$PhoneService<-ifelse(sd$PhoneService=='Yes', 1,0)

它不容易重复。 这对于这个特定项目是可行的，但是如果您有一个需要转换的包含100列的数据集，则必须有一种方法来实现。 我不能只看它具有的级别数，因为还有其他的列具有两个级别，因此对于二进制来说意义不大。 因此，我需要一种方法让R遍历表，找到只有两个级别的列，检查这两个级别分别为“是”和“否”，然后将它们转换为1和0。

这是我尝试过的：

#Get source data
sd = read.csv("source/xyz.csv", header = T, stringsAsFactors=T)

#Clean up data
twoLevelClean <- function(b){
  lvlsNames = levels(b)
  ifelse(lvlsNames == "Yes", print(lvlsNames), print("Not yes no"))
}

cleanData <- function(a){
  lvls = nlevels(a)
  ifelse(lvls == 2, sapply(a, twoLevelClean), print("Not 2"))
}

sapply(sd, cleanData)

这只是开始吐出这样的随机输出：

...
[1] "No"  "Yes"
[1] "Not yes no"
[1] "No"  "Yes"
[1] "Not yes no"
[1] "No"  "Yes"
[1] "Not yes no"
[1] "No"  "Yes"
[1] "Not yes no"
...

我认为它的第一列具有1000多个唯一值，但具有两个以上的级别。 我也不确定我会采用正确的方法。 我应该先看一下水平吗？ 我希望twoLevelClean函数仅在触发它的列上运行，但是我认为这没有发生。 我认为这是从头开始的。

for语句对此会更好吗？ 我可以索引列并在某些列上运行某些功能吗？

Answer 1

在原始数据集上使用tidyverse包，您可以运行以下代码：

Original_data_frame <- data.frame(
    c(1:10),
    c(rep("Yes",5),rep("No",5)),
    c(rep("Yes",5),rep("No",5))
)

names(Original_data_frame ) <- c("id","Var1","Var2")

使用dplyr软件包的mutate_at函数：

Original_data_frame_mod <- Original_data_frame %>% 
    mutate_at(.vars = vars(Var1,Var2), .funs = funs(ifelse(.=="Yes",1,0)))

Answer 2

您可以按照以下方式进行操作：

yn_to_10 = function(x) {
    if (! is.factor(x)) return(x)
    if (! identical(levels(x), c("no", "yes")) return(x)
    return(ifelse(x == "yes", 1, 0))
}

your_data[] = lapply(your_data, yn_to_10)

但是您应该听一下注释-因数在内部存储为整数（从1开始，而不是0），因此将两级因数更改为二进制0/1并不会真正改变。

R自定义函数以清理数据

问题描述

2 个解决方案

解决方案1
1 已采纳 2017-12-24 20:22:41

解决方案2
0 2017-12-24 20:21:50

R自定义函数以清理数据

问题描述

2 个解决方案

解决方案1 1 已采纳 2017-12-24 20:22:41

解决方案2 0 2017-12-24 20:21:50

解决方案1
1 已采纳 2017-12-24 20:22:41

解决方案2
0 2017-12-24 20:21:50