[英]Reshape the data from long to wide format
我正在寻找从长格式到宽格式重塑数据的快速方法。 现在,我已经尝试了使用嵌套嵌套循环的代码,尽管工作已完成,但是生成输出仍需要很长时间。
SN NN EE Service_tier
A B C economy
B C C economy
P Q R regular
Q S R regular
S R R regular
H I L economy
I J L economy
J K L economy
K L L economy
预期的输出如下
SN hop1 hop2 hop3 hop4 service_tier
A B C economy
P Q S R regular
H I J K L economy
目前,以下代码可以完成工作。 确保有一种有效且干净的方法来执行此操作。
for (i in 1:lasrow){
sn <- raw_d[i,1]
nn <- raw_d[i,2]
en <- raw_d[i,3]
lc <- 1
if(nn == en){
d[lr,lc]<-sn
d[lr,lc+1]<-nn
d[lr,lc+2]<-en
lr <- lr+1
}
else{
while(nn!=en){
d[lr,lc]<-sn
lc <- lc+1
next_d <- filter(raw_d,raw_d$SN==sn,raw_d$EN==en)
if(dim(next_d)[1]==0){
d[lr,lc]<-"broken bf"
lc <- lc+1
break
}else{
sn <- next_d$NN
nn <- next_d$NN
}
}
d[lr,lc]<-en
lr<-lr+1
}
}
一种选择是创建采用了独特的序列rleid
从data.table
, gather
数据帧,以长格式,从每个组中删除重复项,指定列名和spread
回宽幅。
library(dplyr)
library(tidyr)
df %>%
mutate(row = data.table::rleid(Service_tier)) %>%
gather(key, value, -Service_tier, -row) %>%
group_by(row) %>%
filter(!duplicated(value)) %>%
mutate(key = c("SN", paste0("hop", 1:(n() - 1)))) %>%
spread(key, value) %>%
ungroup() %>%
select(-row) %>%
select(SN, starts_with("hop"), Service_tier)
# A tibble: 3 x 6
# SN hop1 hop2 hop3 hop4 Service_tier
# <chr> <chr> <chr> <chr> <chr> <fct>
#1 A B C NA NA economy
#2 H I J K L economy
#3 P Q S R NA regular
我们可以使用data.table
。 将'data.frame'转换为'dat.table'( setDT(df1)
,按'Service_tier'上的rleid
分组,将'SN'的值更改为按'grp'分组的first
元素,然后按'Service_tier'分组,“ SN”,获取Data.table子集的unique
元素,并将dcast
从“长”格式转换为“宽”格式
library(data.table)
dcast(setDT(df1)[, SN := first(SN), rleid(Service_tier)][,
unique(unlist(.SD)), .(SN, Service_tier)],
SN + Service_tier ~ paste0("hop", rowid(SN)), value.var = "V1", fill = "")
# SN Service_tier hop1 hop2 hop3 hop4
#1: A economy B C
#2: H economy I J K L
#3: P regular Q S R
df1 <- structure(list(SN = c("A", "B", "P", "Q", "S", "H", "I", "J",
"K"), NN = c("B", "C", "Q", "S", "R", "I", "J", "K", "L"), EE = c("C",
"C", "R", "R", "R", "L", "L", "L", "L"), Service_tier = c("economy",
"economy", "regular", "regular", "regular", "economy", "economy",
"economy", "economy")), class = "data.frame", row.names = c(NA,
-9L))
这里的关键点是确定哪些行属于哪个组。 通过这些问题的答案Ronak和akrun都使用rleid(Service_tier)
假设在一个变化Service_tier
指示开始新的一批。
样本数据集可能会建议这样做,但不能认为是保证的。 恕我直言, Service_tier
而是一个属性而不是一个键。 实际上,OP正在他的代码段中测试NN == EE
以切换到新组。
在下面的data.table解决方案中,分组由cumsum(shift(NN == EE, fill = TRUE))
确定,该cumsum(shift(NN == EE, fill = TRUE))
测试NN
和EE
相等性,将结果滞后到下一行开始的下一行,并枚举通过使用cumsum()
计数为TRUE
来cumsum()
。
在简化版本中(不进行重塑),跃点由toString()
函数聚合:
library(data.table)
setDT(d)[, .(SN = first(SN), hops = toString(NN), Service_tier = first(Service_tier)),
by = .(grp = cumsum(shift(NN == EE, fill = TRUE)))][]
grp SN hops Service_tier 1: 1 AB, C economy 2: 2 PQ, S, R regular 3: 3 HI, J, K, L economy
为了从长格式转换为宽格式,使用了dcast()
:
library(data.table)
library(magrittr) # piping used to improve readability
w <- setDT(d)[, .(SN = first(SN), hops = NN, Service_tier = first(Service_tier)),
by = .(grp = cumsum(shift(NN == EE, fill = TRUE)))] %>%
dcast(grp + ... ~ rowid(grp, prefix = "hop"), value.var = "hops", fill = "") %>%
setcolorder(c(1:2, 4:ncol(.), 3))
w
grp SN hop1 hop2 hop3 hop4 Service_tier 1: 1 ABC economy 2: 2 PQSR regular 3: 3 HIJKL economy
setcolorder()
用于按OP期望的顺序重新排列列。 这是就地完成的 ,即,无需复制整个数据对象。
library(data.table)
d <- fread("SN NN EE Service_tier
A B C economy
B C C economy
P Q R regular
Q S R regular
S R R regular
H I L economy
I J L economy
J K L economy
K L L economy")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.