根据来自其他列的正则表达式捕获组的值有效地将列添加到数据框

Question

我想向现有数据框添加一个额外的列，其中newColumn的值将基于应用于同一行中另一个值的正则表达式的捕获组，到目前为止我想出的唯一有效的是这个（可能不是 R 式）循环的标准方法，但它非常慢（对于大约 150 万行的 DF）。

带列的数据框：

ID    Text    NewColumn

Atm 我处理这个：

df$newColumn <- rep("", nrow(df));
for (row in 1:nrow(df)) {
    df$newColumn[row] <- str_match(df$Text[row], regex)[1,2];
}

在阅读了几篇文章后，我尝试使用 apply/lapply 但我的方法都没有产生预期的结果。 这甚至可以通过 apply-family 的功能实现，如果是：如何？

例子：

为了

regex <- "^[0-9]*([a-zA-Z]*)$";

和如下表：

ID   Text         
------------------
1    231Ben
2    112Claudine
3    538Julia

我希望：

ID   Text          NewColumn
----------------------------
1    231Ben          Ben
2    112Claudine     Claudine
3    538Julia        Julia

Answer 1

str_match和gsub/sub等是矢量化的，所以如果pattern相同，我们不必遍历行

df1$NewColumn <- gsub("\\d+", "", df1$Text)

或者使用stringr函数

library(stringr)
df1$NewColumn <- str_match(df1$Text, "([A-Za-z]+)")[,1] 

str_extract(df1$Text, "[A-Za-z]+")
#[1] "Ben"      "Claudine" "Julia"