如果一列值基于 R 数据帧中的另一列匹配，则过滤行

Question

由于我对 R 编程非常陌生，因此我需要您的帮助才能找到答案

我有以下数据框作为输入数据，现在我想返回具有相同 EntryName 但序列不同的行

条目名称	入口	基因名称	生物	长度	序列	职位
HXA13_HUMAN	P31271	HOXA13 HOX	人类	388	AAAA	12
SOX21_人类	Q9Y651	SOX21 SOX25	人类	276	AAAA	13
RBM24_HUMAN	Q9BX46	RBM24 RNPC6	人类	236	美国航空航天局	14
MZT1_人类	Q08AG7	MZT1 C13orf	人类	191	AAAK	15
HXA13_HUMAN	P51589	HOXA13 HOXk	人类	100	ABAB	120

现在我想过滤序列 AAAA 的行，它应该返回 EntryName 与其他序列的 AAAA 的 EntryName 匹配的整行

我期待下面的 output

条目名称	入口	基因名称	生物	长度	序列	职位
HXA13_HUMAN	P31271	HOXA13 HOX	人类	388	AAAA	12
HXA13_HUMAN	P51589	HOXA13 HOXk	人类	100	ABAB	120

除了 R 脚本之外，MongoDB 也很有帮助提前非常感谢！

Answer 1

我们可以按filter分组

library(dplyr)
df1 %>%
    group_by(EntryName) %>%
    filter('AAAA' %in% Sequence) %>%
    ungroup

或者它可能是

df1 %>%
    group_by(EntryName) %>%
    filter(n_distinct(Sequence) > 1) %>%
    ungroup

-输出

# A tibble: 2 × 7
  EntryName   Entry  GeneNames   Organism Length Sequence Postion
  <chr>       <chr>  <chr>       <chr>     <int> <chr>      <int>
1 HXA13_HUMAN P31271 HOXA13 HOX  Human       388 AAAA          12
2 HXA13_HUMAN P51589 HOXA13 HOXk Human       100 ABAB         120

数据

df1 <- structure(list(EntryName = c("HXA13_HUMAN", "SOX21_HUMAN", "RBM24_HUMAN", 
"MZT1_HUMAN", "HXA13_HUMAN"), Entry = c("P31271", "Q9Y651", "Q9BX46", 
"Q08AG7", "P51589"), GeneNames = c("HOXA13 HOX", "SOX21 SOX25", 
"RBM24 RNPC6", "MZT1 C13orf", "HOXA13 HOXk"), Organism = c("Human", 
"Human", "Human", "Human", "Human"), Length = c(388L, 276L, 236L, 
191L, 100L), Sequence = c("AAAA", "AAAA", "AAAE", "AAAK", "ABAB"
), Postion = c(12L, 13L, 14L, 15L, 120L)), 
class = "data.frame", row.names = c(NA, 
-5L))

Answer 2

底座 R：

subset(df1, EntryName %in% unique(EntryName[Sequence == "AAAA"]))

 EntryName   Entry  GeneNames   Organism Length Sequence Postion
  <chr>       <chr>  <chr>       <chr>     <int> <chr>      <int>
1 HXA13_HUMAN P31271 HOXA13 HOX  Human       388 AAAA          12
2 SOX21_HUMAN Q9Y651 SOX21 SOX25 Human       276 AAAA          13
3 HXA13_HUMAN P51589 HOXA13 HOXk Human       100 ABAB         120

我们也可以使用any ：

library(dplyr)
df1 %>%
  group_by(EntryName) %>%
  filter(any(Sequence=="AAAA")) %>%
  ungroup

 EntryName   Entry  GeneNames   Organism Length Sequence Postion
  <chr>       <chr>  <chr>       <chr>     <int> <chr>      <int>
1 HXA13_HUMAN P31271 HOXA13 HOX  Human       388 AAAA          12
2 SOX21_HUMAN Q9Y651 SOX21 SOX25 Human       276 AAAA          13
3 HXA13_HUMAN P51589 HOXA13 HOXk Human       100 ABAB         120

如果一列值基于 R 数据帧中的另一列匹配，则过滤行

问题描述

2 个解决方案

解决方案1
1 2022-08-27 17:22:39

数据

解决方案2
1 2022-08-27 17:45:05

如果一列值基于 R 数据帧中的另一列匹配，则过滤行

问题描述

2 个解决方案

解决方案1 1 2022-08-27 17:22:39

数据

解决方案2 1 2022-08-27 17:45:05

解决方案1
1 2022-08-27 17:22:39

解决方案2
1 2022-08-27 17:45:05