如何對數據框進行子集化以包含包含某個單詞的所有元素

Question

我想對我的數據框進行子集化以包含所有包含“抑制劑”一詞的元素。 我想保留整個元素。 例如，我有一個新的數據框，其中包含：342 種腎素抑制劑、342 種腎素抑制劑、216 種 ALPHA-葡萄糖苷酶抑制劑等。

這不起作用

library(dplyr)
a = data.frame(col1 = c('drug', 'drug', 'drug'),
               col2 = c('drug-inhibitor', 'drug inhibitor2', 'drug'),
               col3= c('drug inhibitor3', 'drug inhibitor4', 'drug'))
x <- a %>% filter(grepl('inhibitor', a[,2:3]))

在編碼示例中，我想要一個新的數據框：drug-inhibitor、drug inhibitor2、drug inhibitor3、drug inhibitor4

Answer 1

對於基本 R 選項，我們可以在行模式下使用apply()和grepl() ：

a[apply(a, 1, function(r) any(grepl("inhibitor", r, fixed=TRUE))), ]

  col1            col2            col3
1 drug  drug-inhibitor drug inhibitor3
2 drug drug inhibitor2 drug inhibitor4

數據：

a <- data.frame(col1=c('drug', 'drug', 'drug'),
                col2=c('drug-inhibitor', 'drug inhibitor2', 'drug'),
                col3=c('drug inhibitor3', 'drug inhibitor4', 'drug'))

Answer 2

您也可以使用str_detect() ，例如

library(dplyr)
library(stringr)
a <- data.frame(
  col1 = c("drug", "drug", "drug"),
  col2 = c("drug-inhibitor", "drug inhibitor2", "drug"),
  col3 = c("drug inhibitor3", "drug inhibitor4", "drug")
)

a %>%
  filter(if_any(everything(), ~ stringr::str_detect(string = ., pattern = "inhibitor")))

Output：

  col1            col2            col3
1 drug  drug-inhibitor drug inhibitor3
2 drug drug inhibitor2 drug inhibitor4

如何對數據框進行子集化以包含包含某個單詞的所有元素

問題描述

2 個解決方案

解決方案1
0 2022-08-19 03:50:32

解決方案2
0 2022-08-19 06:51:34

如何對數據框進行子集化以包含包含某個單詞的所有元素

問題描述

2 個解決方案

解決方案1 0 2022-08-19 03:50:32

解決方案2 0 2022-08-19 06:51:34

解決方案1
0 2022-08-19 03:50:32

解決方案2
0 2022-08-19 06:51:34