基于逗号聚合列

Question

我有以下数据框，我正在尝试将逗号分开，并将该特定名称转换为各自的列，并指定该特定ID是否存在特定列名（以逗号分隔）。 （1 =是，0 =否）任何帮助将不胜感激！ 谢谢！

ID<- c(1,2,3,4,5,6)
Details<- c("V1,V2", "V1,V3", "V1", "V2", "V3,V4", "V2,V3" )

data.frame <- data.frame(ID, Details, stringsAsFactors=FALSE)

期望的输出：

ID<-c(1,2,3,4,5,6)
V1<-c(1,1,1,0,0,0)
V2<-c(1,0,0,1,0,1)
V3<-c(0,1,0,0,1,1)
V4<-c(0,0,0,0,1,0)

data.frame1<-data.frame(ID, V1, V2, V3, V4, stringsAsFactors=FALSE)

Answer 1

使用tidyverse包的解决方案。 dat是您的示例数据框架。 dat2是最终的数据帧。

library(tidyverse)

dat2 <- dat %>%
  separate_rows(Details) %>%
  mutate(Value = 1L) %>%
  spread(Details, Value, fill = 0L)
dat2
#   ID V1 V2 V3 V4
# 1  1  1  1  0  0
# 2  2  1  0  1  0
# 3  3  1  0  0  0
# 4  4  0  1  0  0
# 5  5  0  0  1  1
# 6  6  0  1  1  0

Answer 2

有一种选择mtabulate从qdapTools

library(qdapTools)
cbind.data.frame(ID, # or data.frame$ID
                 mtabulate(strsplit(as.character(data.frame$Details), ",")))
# output
  ID V1 V2 V3 V4
1  1  1  1  0  0
2  2  1  0  1  0
3  3  1  0  0  0
4  4  0  1  0  0
5  5  0  0  1  1
6  6  0  1  1  0

Answer 3

这是一个基础R解决方案。 我已重命名您的data.frames data1和data2 。

data1 <- data.frame(ID, Details, stringsAsFactors=FALSE)
data2 <- data.frame(ID, V1, V2, V3, V4, stringsAsFactors=FALSE)        

nms <- unique(unlist(strsplit(data1$Details, ",")))
data3 <- cbind.data.frame(ID, sapply(nms, grepl, data1$Details))
data3[-1] <- lapply(data3[-1], as.integer)

现在将data3与预期结果data2进行比较。

all.equal(data2, data3)
#[1] TRUE

但请注意

identical(data2, data3)
#[1] FALSE

这是因为我使用了as.integer ， data2中的值是"numeric"类。 如果这有所不同，您可以更改上面的lapply指令以使用as.numeric 。

Answer 4

使用基数R：

 xtabs(val~.,cbind.data.frame(ID=rep(ID,lengths(s<-strsplit(Details,","))),Details=unlist(s),val=1))
   Details
ID  V1 V2 V3 V4
  1  1  1  0  0
  2  1  0  1  0
  3  1  0  0  0
  4  0  1  0  0
  5  0  0  1  1
  6  0  1  1  0

Answer 5

我看到的最直接的方法是为隐藏在字符串中的每个向量构建一个data.frame并绑定它们。 purrr可以帮助使它非常紧凑。 请注意，不需要列ID ，我将直接处理Details 。

library(purrr)
df <- map_dfr(strsplit(Details, ","),
              ~data.frame(t(setNames(rep(1, length(.x)), .x))))
df[is.na(df)] <- 0

#   V1 V2 V3 V4
# 1  1  1  0  0
# 2  1  0  1  0
# 3  1  0  0  0
# 4  0  1  0  0
# 5  0  0  1  1
# 6  0  1  1  0

您还可以拆分和取消列表以获取不同的值，然后在原始向量中查找它们：

unique_v <- unique(unlist(strsplit(Details, ",")))
map_dfc(unique_v, ~as.numeric(grepl(.x, Details)))
# # A tibble: 6 x 4
#      V1    V2    V3    V4
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     1     0     0
# 2     1     0     1     0
# 3     1     0     0     0
# 4     0     1     0     0
# 5     0     0     1     1
# 6     0     1     1     0

如果您知道列数，我们也可以做一些脏字符串评估：

m <- as.data.frame(matrix(0,ncol=4,nrow=6))
eval(parse(text=paste0("m[",ID,", c(",gsub("V","",Details),")] <- 1")))
#   V1 V2 V3 V4
# 1  1  1  0  0
# 2  1  0  1  0
# 3  1  0  0  0
# 4  0  1  0  0
# 5  0  0  1  1
# 6  0  1  1  0

基于逗号聚合列

问题描述

5 个解决方案

解决方案1
3 2018-07-02 13:46:13

解决方案2
3 2018-07-02 13:49:00

解决方案3
1 2018-07-02 13:57:11

解决方案4
0 2018-07-02 14:01:54

解决方案5
0 2018-07-02 23:17:42

基于逗号聚合列

问题描述

5 个解决方案

解决方案1 3 2018-07-02 13:46:13

解决方案2 3 2018-07-02 13:49:00

解决方案3 1 2018-07-02 13:57:11

解决方案4 0 2018-07-02 14:01:54

解决方案5 0 2018-07-02 23:17:42

解决方案1
3 2018-07-02 13:46:13

解决方案2
3 2018-07-02 13:49:00

解决方案3
1 2018-07-02 13:57:11

解决方案4
0 2018-07-02 14:01:54

解决方案5
0 2018-07-02 23:17:42