繁体   English   中英

R根据行名传播数据帧

[英]R Spread Data Frame based on row names

我有两列的数据框。 行名称被复制为带有某些公用字段的报告列表中的数据穹顶。 每个报告包含不同数量的字段。 我想基于这些重复的行名称之一将此数据帧扩展为多列。 最终结果将使每个报告连续显示。

这些报告来自工作系统上存在的API。 它返回一个非常嵌套的JSON。 我想看看以这种格式获取数据是否可以为我提供一种清理数据的方法。

最小数据示例

Column1       Column2
contentID      123
value1         California
value2         truck
value3         home
contentID      897
value1         Georgia
value2         car
value3         work
value4         boeing   
contentID      537
value2         truck
value4         private
value5         first class
value6         wheels

期望的结果

ContentID   value1     value2 value3 value4   value5      value6
123         California truck  home   NA       NA          NA
897         Georgia    car    work   boeing   NA          NA  
537         NA         truck  NA     private  firstclass  wheels

tidyverse一种可能是:

df %>%
 mutate(id = cumsum(grepl("content", Column1))) %>%
 group_by(id) %>%
 mutate(ContentID = first(Column2)) %>%
 filter(!grepl("content", Column1)) %>%
 ungroup() %>%
 select(-id) %>%
 spread(Column1, Column2)

  ContentID value1     value2 value3 value4  value5      value6
  <chr>     <chr>      <chr>  <chr>  <chr>   <chr>       <chr> 
1 123       California truck  home   <NA>    <NA>        <NA>  
2 537       <NA>       truck  <NA>   private first_class wheels
3 897       Georgia    car    work   boeing  <NA>        <NA>  

首先,它根据“ Column1”中content的出现创建一个ID变量并对其进行分组。 其次,它使用每个组“ Column2”上第一行的值创建一个“ ContentID”变量。 第三,它过滤掉包含“ Column1”中content的行。 最后,它传播数据。

您可以简单地做到这一点-

library(data.table)
library(zoo)
setDT(dt)
dt[,id:=ifelse(Column1 %like% "contentID",paste(Column2),NA)]
dt[,id:=na.locf(id)]
dcast.data.table(dt,id~Column1,value.var="Column2",subset = .(Column1!="contentID"))


 id     value1 value2 value3  value4     value5 value6
1: 123 California  truck   home    <NA>       <NA>   <NA>
2: 537       <NA>  truck   <NA> private firstclass wheels
3: 897    Georgia    car   work  boeing       <NA>   <NA>

注意 -如果数据集很大,这将非常有效。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM