如何從R中的面板數據框中刪除具有唯一ID的行？

Question

我有一個數據表，其中包含可以由唯一ID標識的數千個公司。 它是長格式數據，每個公司應該在不同的年份出現兩次（兩年內的橫截面時間序列）。

但是，並非所有公司都出現在這兩個年度中，因此我試圖創建一個平衡的長格式面板，其中僅保留在這兩個年度中出現的公司。 我該如何完成？

這是一個示例數據表，用於說明問題：

example <- matrix(c(1,1,2,3,3,2013,2016,2013,2013,2016), ncol=2)
colnames(example) <- c('id', 'year')
example.table <- data.table(example)
example.table

   id year
1:  1 2013
2:  1 2016
3:  2 2013
4:  3 2013
5:  3 2016

在該示例中，我需要一個代碼/函數，該代碼/函數可讓我排除ID為“ 2”的公司行，因為它在2016年不匹配。換句話說：我需要一個將每行與如果id列中沒有匹配項，則將前一行和后一行排除在外。

我已經投入了很多時間，但是似乎已經達到了我的R知識的極限，並且希望得到您的支持。 謝謝！

Answer 1

使用dplyr如下：

library(dplyr)
example.table %>%
  group_by(id) %>%
  filter(n() > 1)
# A tibble: 4 x 2
# Groups:   id [2]
     id  year
  <dbl> <dbl>
1     1  2013
2     1  2016
3     3  2013
4     3  2016

Answer 2

我們從整個數據集中創建一個unique 'year'向量，然后檢查'nm1'中的all值是否all 'id'分組的'year'的%in% ，並對該數據進行子集化。

un1 <- unique(example.table$year)
example.table[, .SD[all(un1 %in% year)], id]
#   id year
#1:  1 2013
#2:  1 2016
#3:  3 2013
#4:  3 2016

注意：OP的數據集為data.table ，此處使用的方法為data.table 。 最初，考慮過使用.SD[uniqueN(year) > 1] ，但這是錯誤的，可能不適用於所有情況

Answer 3

data.table的dplyr解決方案等效的dplyr解決方案

example.table[, if(.N > 1) .SD, id]

   id year
1:  1 2013
2:  1 2016
3:  3 2013
4:  3 2016

如何從R中的面板數據框中刪除具有唯一ID的行？

問題描述

3 個解決方案

解決方案1
2 已采納 2019-04-11 17:02:39

解決方案2
1 2019-04-11 17:01:40

解決方案3
0 2019-04-11 17:24:19

如何從R中的面板數據框中刪除具有唯一ID的行？

問題描述

3 個解決方案

解決方案1 2 已采納 2019-04-11 17:02:39

解決方案2 1 2019-04-11 17:01:40

解決方案3 0 2019-04-11 17:24:19

解決方案1
2 已采納 2019-04-11 17:02:39

解決方案2
1 2019-04-11 17:01:40

解決方案3
0 2019-04-11 17:24:19