R：刪除字符串中分隔符后的所有字母字符

Question

我想在字符串中刪除分隔符后面的所有字母（[az]）（例如“ - ”），例如：

s <- "abc-10abc"

所以得到：

> s2
[1] "abc-10"

我怎樣才能做到這一點？ 謝謝

Answer 1

gsub("(.*\\d).*", "\\1", s)

第一個模式參數使用()來“捕獲”一組字符。 在捕獲內部，我們正在尋找所有外卡字符，直到數字\\\\d 。 這會“捕獲”所有內容，直到最后一位數字。

由於pattern參數還包括捕獲組之后的多通配符，因此整個原始字符串將作為替換目標。 替換參數\\\\1表示使用模式參數中的第一個（僅在此情況下）捕獲表達式。

讓我知道，如果不清楚，這是我的正則表達福音為R正則表達式的幫助https://www.cheatography.com/davechild/cheat-sheets/regular-expressions/

就像Rich Scriven指出的那樣，你可以用.* [az]*代替.* [az]*來定位最后一個數字之后的字母。 您可能希望將參數ignore.case = TRUE添加到gsub()以及不是所有內容都是小寫：

gsub("(.*\\-\\d*)[a-z]*", "\\1", s, ignore.case = TRUE)

Answer 2

我不是正則表達式專家，但我相信這符合你的模式。

gsub("(^.*-[^[:alpha:]]*)[[:alpha:]]*", "\\1", s)
#[1] "abc-10"

說明：

然后在replacement參數中， \\\\1表示用第一組替換模式，因此省略[[:alpha:]]*部分。