替換r中兩個模式之間的所有字符

Question

我有一個帶有以下列的數據框：

  Col_A
tr_1 A1; gn_1 TG1;
tr_2 A2; gn_2 TG2;
tr_3 A3; gn_3 TG3;
tr_4 A4; gn_4 TG4;
tr_5 A5; gn_5 TG5;

我想使用gsub命令和正則表達式刪除數據框中所有行中從字符串“ gn_1”的開頭到結尾的所有字符。 或將所有這些字符替換為“”。

最后我想要的是這樣的：

 Col_A
 TG1
 TG2
 TG3
 TG4
 TG5

你有什么主意，我該怎么做？

Answer 1

以下正則表達式將滿足您的要求。

sub("^.*gn_\\d+\\s([[:alnum:]]+).*$", "\\1", df1$Col_A)
#[1] "TG1" "TG2" "TG3" "TG4" "TG5"

dput格式的數據。

df1 <-
structure(list(Col_A = structure(1:5, 
.Label = c("tr_1 A1; gn_1 TG1;", "tr_2 A2; gn_2 TG2;", 
"tr_3 A3; gn_3 TG3;", "tr_4 A4; gn_4 TG4;", 
"tr_5 A5; gn_5 TG5;"), class = "factor")), 
class = "data.frame", row.names = c(NA, -5L))

Answer 2

您可以始終使用stringi軟件包：

library(stringi)
stri_extract_last_words(df1$Col_A)
[1] "TG1" "TG2" "TG3" "TG4" "TG5"

編輯：只需重新閱讀您的問題，（這假定gn_#之后總是有一個單詞，請謹慎使用）

Answer 3

我通過以下命令得到了想要的東西。 如果有人在尋找答案，我會在這里發布。

DF$col <- gsub("^tr.*gn_. ", "", DF$col)

DF$col <- gsub(";", "", DF$col)

替換r中兩個模式之間的所有字符

問題描述

3 個解決方案

解決方案1
3 2019-03-13 19:02:57

解決方案2
1 2019-03-13 19:13:52

解決方案3
0 2019-03-13 19:21:19

替換r中兩個模式之間的所有字符

問題描述

3 個解決方案

解決方案1 3 2019-03-13 19:02:57

解決方案2 1 2019-03-13 19:13:52

解決方案3 0 2019-03-13 19:21:19

解決方案1
3 2019-03-13 19:02:57

解決方案2
1 2019-03-13 19:13:52

解決方案3
0 2019-03-13 19:21:19