我該如何通過gsub來選擇字符串？

Question

我有這樣的字符串：

df
[1] "XID\t5647: asasaasa" "XID\t1540"

如何使用gsub僅選擇“ XID \\ t”之后的數字？ 我使用gsub如下：

gsub(".*XID\t(.*)\\:.*", "\\1", df)
>[1] "5647"     "XID\t1540"

要么

gsub(".*XID\t(.*)", "\\1", df)
>[1] "5647: asasaasa" "1540"

但我希望這樣：

[1] "5647" "1540"

我認為案例是重疊的，因此我必須使用gsub兩次，這樣我才能根據需要選擇它們。 請給我您的想法，謝謝。

Answer 1

我們可以使用str_extract匹配數字部分（ \\\\d+ ）

library(stringr)
str_extract(df, "\\d+")
#[1] "5647" "1540"

或者使用gsub匹配所有非數字（ \\\\D+ ）並將其替換為"" 。

gsub("\\D+", "", df)
#[1] "5647" "1540"

或者使用OP的語法來匹配“ XID \\ t”之后的一個或多個數字（ \\\\d+ ），將其捕獲為一個組（ (...) ），然后將其替換為后向引用（ \\\\1 ）。

sub(".*XID\t(\\d+).*", "\\1", df)
#[1] "5647" "1540"

df <- c("XID\t5647: asasaasa", "XID\t1540" )

Answer 2

只需將非數字的任何內容替換為“”

x=c("XID\t5647: asasaasa", "XID\t1540" )
gsub("[^0-9]","",x)
#[1] "5647" "1540"