繁体   English   中英

如何从R中的面板数据框中删除具有唯一ID的行?

[英]How to delete rows with a unique ID from a panel data frame in R?

我有一个数据表,其中包含可以由唯一ID标识的数千个公司。 它是长格式数据,每个公司应该在不同的年份出现两次(两年内的横截面时间序列)。

但是,并非所有公司都出现在这两个年度中,因此我试图创建一个平衡的长格式面板,其中仅保留在这两个年度中出现的公司。 我该如何完成?

这是一个示例数据表,用于说明问题:

example <- matrix(c(1,1,2,3,3,2013,2016,2013,2013,2016), ncol=2)
colnames(example) <- c('id', 'year')
example.table <- data.table(example)
example.table

   id year
1:  1 2013
2:  1 2016
3:  2 2013
4:  3 2013
5:  3 2016

在该示例中,我需要一个代码/函数,该代码/函数可让我排除ID为“ 2”的公司行,因为它在2016年不匹配。换句话说:我需要一个将每行与如果id列中没有匹配项,则将前一行和后一行排除在外。

我已经投入了很多时间,但是似乎已经达到了我的R知识的极限,并且希望得到您的支持。 谢谢!

使用dplyr如下:

library(dplyr)
example.table %>%
  group_by(id) %>%
  filter(n() > 1)
# A tibble: 4 x 2
# Groups:   id [2]
     id  year
  <dbl> <dbl>
1     1  2013
2     1  2016
3     3  2013
4     3  2016

我们从整个数据集中创建一个unique 'year'向量,然后检查'nm1'中的all值是否all 'id'分组的'year'的%in% ,并对该数据进行子集化。

un1 <- unique(example.table$year)
example.table[, .SD[all(un1 %in% year)], id]
#   id year
#1:  1 2013
#2:  1 2016
#3:  3 2013
#4:  3 2016

注意:OP的数据集为data.table ,此处使用的方法为data.table 最初,考虑过使用.SD[uniqueN(year) > 1] ,但这是错误的,可能不适用于所有情况

data.tabledplyr解决方案等效的dplyr解决方案

example.table[, if(.N > 1) .SD, id]

   id year
1:  1 2013
2:  1 2016
3:  3 2013
4:  3 2016

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM