簡體   English   中英

重新編碼R中的列

[英]Recode column in R

我有一個很大的數據集,需要將一些數字變量重新編碼為其他數字值。 我的數據集的一部分看起來像這樣:

condition.10 financial.condition behavior.condition outcome Gender Race
1            6                   1                  3       0   Male    5
2            7                   0                  4       0 Female    5
3            5                   0                  3       1 Female    5
4            2                   1                  1       1   Male  2,5
5           10                   1                  5       0 Female    5
6            6                   1                  3       1   Male    5

我想將比賽重新編碼為1、2、3-“白色”,“黑色”和“其他”的3個“箱”。 我設法通過以下代碼實現了這一點:

mydata$Race <- NA
mydata$Race <- mydata$Q73
mydata$Race[mydata$Race==1|mydata$Race==2|mydata$Race==4|mydata$Race==6]<-6
mydata$Race[mydata$Race==3]<-2
mydata$Race[mydata$Race==5]<-1
mydata$Race[mydata$Race==6]<-3

我也試過這個:

case_when(mydata$Race %in% c(1,2,4,6) ~3,
mydata$Race %in% 3 ~ 2,
mydata$Race %in% 5 ~1,
TRUE ~ as.numeric(mydata$Race))

第一點給了我我所需要的東西,但是這並不能說明人們檢查了諸如第四行這樣的兩個種族。

任何意見,將不勝感激。 我已經准備好從汽車包裝和dplyr中重新編碼。

也許只是我這么新,但無法進行基本操作會很痛。

unique(mydata$Race)
# [1] 5 2,5 2 3 6 3,5 1,5 1,2,4,5 1 1,2,5 4,6 3,6 2,3 1,3 4
# [16] 2,4,5,6 1,3,5 4,5
# Levels: 1 1,2,4,5 1,2,5 1,3 1,3,5 1,5 2 2,3 2,4,5,6 2,5 3 3,5 3,6 4 4,5 4,6 5 6

注:新的R和正在尋找一些指導。

我們可以使用您要查找的種族代碼創建查找表。 該表中沒有的任何內容,我們都可以稱為“其他”。

library(tidyverse)

#create a lookup table
RaceTable <- data.frame(Race = c(3, 5),
                        RaceName = c("White", "Black"),
                        stringsAsFactors = FALSE)

mydata %>% 
  #bring in RaceName from the lookup table
  left_join(RaceTable, by = c("Race" = "Race")) %>% 
  #if there is no RaceName, call it "Other"
  mutate(RaceName = replace(RaceName, is.na(RaceName), "Other"))

我們可以創建一個名為vector的查找,然后遍歷值:

# example data
df1 <- data.frame(Race = c("1", "2", "3", "4", "5", "5,2", "6"))

# map, named vector
lookup <- setNames(c(3, 3, 2, 3, 1, 3), 1:6)
# 1 2 3 4 5 6 
# 3 3 2 3 1 3 

df1$RaceClean <- sapply(as.character(df1$Race), function(i){
  paste(lookup[ unlist(strsplit(i, ",")) ], collapse = ",")
  })

df1
#   Race RaceClean
# 1    1         3
# 2    2         3
# 3    3         2
# 4    4         3
# 5    5         1
# 6  5,2       1,3
# 7    6         3

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM