[英]Splitting several columns of a dataframe with 'separate' (tidyr) in R
大家早上好,我已經閱讀了幾個關於用R分割列的事情,但我找不到如何解決我的情況。
我想根據一個分隔符,使用tidyr R包中的'separate'函數將每個數據幀的列分成兩列。
我有這個數據框:
dat1 AIN5997 AIN7452 AIN8674 AIN9655 001 01/02 02/02 02/02 01/02 002 01/02 01/01 02/02 02/02 003 01/02 01/02 01/01 02/02 004 01/02 01/01 02/02 01/02 005 01/01 01/01 02/02 02/02 006 01/02 01/02 01/01 02/02 ...
我想根據“/”將每列分成兩列,如果可能的話,保留列名稱(例如:AIN5997將成為AIN5997.1和AIN5997.2)
我認為可以使用'separate'但是當我嘗試使用'apply'時,我無法將過程擴展到我的幀的每一列(可能因為單獨使用數據幀和一次一列)。 這一定非常容易,但我的R技能非常糟糕!
有許多線程解釋如何將一列拆分為兩列,如下所示: 將數據幀的列拆分為多列
但我找不到如何同時擴展幾個列的過程。
非常感謝您的幫助,
祝一切順利 :)
訣竅是以正確的順序創建新名稱,因此請確保預先訂購要分隔的列。
NA
值的問題在於進程無法拆分它們。 所以,訣竅是用你可以拆分的東西替換它們。 檢查一下:
library(dplyr)
library(tidyr)
# example dataset
dt = data.frame(id = 1:2,
AIN5997 = c("01/02", "01/02"),
AIN7452 = c("02/02", NA),
AIN8674 = c("02/02","02/02"), stringsAsFactors = F)
# specify columns you want to separate (specify column positions)
input_names = names(dt)[2:4]
# create new names (you want each name twice)
new_names = expand.grid(input_names, 1:2) %>%
unite(v, Var1, Var2, sep=".") %>%
pull(v) %>%
sort()
dt %>%
unite_("v", input_names) %>% # unite columns of interest
mutate(v = gsub("NA", "NA/NA", v)) %>% # replace NAs with something that can be separated
separate(v, new_names, convert = F) # separate elements and give new names
# id AIN5997.1 AIN5997.2 AIN7452.1 AIN7452.2 AIN8674.1 AIN8674.2
# 1 1 01 02 02 02 02 02
# 2 2 01 02 NA NA 02 02
我也在添加更好的解決方案。 它會自動處理NA
值,您不必擔心列名稱及其順序。
library(dplyr)
library(tidyr)
library(purrr)
# example dataset
dt = data.frame(id = 1:2,
AIN5997 = c("01/02", "01/02"),
AIN7452 = c("02/02", NA),
AIN8674 = c("02/02","02/02"), stringsAsFactors = F)
# separate a given column of your initial dataset
f = function(x) { dt %>% select_("id", x) %>% separate_(x, paste0(x, c(".1",".2"))) }
names(dt)[2:4] %>% # get names of columns you want to separate
map(f) %>% # apply the function above to each name (will create a list of dataframes)
reduce(left_join, by="id") # join dataframes iteratively
# id AIN5997.1 AIN5997.2 AIN7452.1 AIN7452.2 AIN8674.1 AIN8674.2
# 1 1 01 02 02 02 02 02
# 2 2 01 02 <NA> <NA> 02 02
您也可以使用tstrsplit()
。
# example dataset
df <- data.frame(AIN5997 = c("01/02", "01/02"),
AIN7452 = c("02/02","01/01"),
AIN8674 = c("02/02","02/02"), stringsAsFactors = F)
df
df2 <- as.data.frame(unlist(lapply(df, data.table::tstrsplit, "/"),
recursive = FALSE))
df2
colnames(df2) # change colnames
colnames(df2) <- paste(substr(colnames(df2), 1, nchar(colnames(df2))-1),
substr(colnames(df2), nchar(colnames(df2)), nchar(colnames(df2))),
sep = ".")
df2
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.