从不同的列中提取字符串并整理R中的数据

Question

我正在尝试从数据集中提取电影类型的字符串。 数据采用以下格式，其中类型类型由不同的审阅者随机分配在数据集中。幸运的是，数据集中只有4种类型（喜剧，动作，恐怖，科幻），但也有重复。 所以我需要从数据集中提取那些字符串。

id  movie v1      v2           v3       v4         v5     v6  
1   LTR   comedy  highbudget   action   comedy     jj     horror
2   MI    newmovie  fiction     scifi    funny      xx    jhee

我期望以下形式的输出。

id  movie   genretype1 genretype2 genretype3   genretype4
1   LTR     comedy     action     comedy       horror
2   MI      scifi      ---        ---          ---

有什么建议么？

Answer 1

这就是我的方法-使用列表而不是data.frame更有意义

> types = c("comedy", "action", "horror", "scifi")
> List = apply(df, 1, function(x) types[types %in% x[-c(1, 2)]])
> names(List) <- df$movie
> List
$LTR
[1] "comedy" "action" "horror"

$MI
[1] "scifi"

或者，此解决方案可以为您提供整洁的data.frame：

> Matrix = t(apply(df, 1, function(x) types %in% x[-c(1, 2)]))
> colnames(Matrix) = types
> cbind(df[,1:2], Matrix)
  id movie comedy action horror scifi
1  1   LTR   TRUE   TRUE   TRUE FALSE
2  2    MI  FALSE  FALSE  FALSE  TRUE

Answer 2

我们可以将“类型”与“ df1”的每一行（不包括第一个两个标识符列）进行match 。 “ lst1”中list元素的长度可能不同。 我们通过将NA值填充到长度比最大长度元素短的元素data.frame使长度相等， rbind列表元素并创建一个新的data.frame 。

 types <- c("comedy", "action", "horror", "scifi")
 lst1 <- apply(df1[-(1:2)], 1, function(x) 
                       types[match(x, types, nomatch=0)])
 res <- data.frame(df1[1:2], do.call(rbind, lapply(lst1, 
                             'length<-', max(lengths(lst1)))))
 res
 # id movie     X1     X2     X3     X4
 #1  1   LTR comedy action comedy horror
 #2  2    MI  scifi   <NA>   <NA>   <NA>

注意：如果需要，我们可以更改列名称。

colnames(res)[-(1:2)] <- paste0('genretype', 1:4)

从不同的列中提取字符串并整理R中的数据

问题描述

2 个解决方案

解决方案1
1 2015-08-06 20:03:01

解决方案2
1 已采纳 2015-08-11 20:07:10

从不同的列中提取字符串并整理R中的数据

问题描述

2 个解决方案

解决方案1 1 2015-08-06 20:03:01

解决方案2 1 已采纳 2015-08-11 20:07:10

解决方案1
1 2015-08-06 20:03:01

解决方案2
1 已采纳 2015-08-11 20:07:10