繁体   English   中英

如何用正则表达式填补两个字符之间的差距

[英]How to fill gap between two characters with regex

我有一个如下数据集。 我想用1来替换两个1之间的所有点,如期望结果所示。 我可以用基础R regex做到这一点吗?

我试过了:

regexpr("^1\\.1$", my.data$my.string, perl = TRUE)

这是c#中的解决方案

两个确切字符之间的字符

谢谢你的任何建议。

my.data <- read.table(text='
     my.string                           state
     ................1...............1.    A
     ......1..........................1    A
     .............1.....2..............    B
     ......1.................1...2.....    B
     ....1....2........................    B
     1...2.............................    C
     ..........1....................1..    C
     .1............................1...    C
     .................1...........1....    C
     ........1....2....................    C
     ......1........................1..    C
     ....1....1...2....................    D
     ......1....................1......    D
     .................1...2............    D
', header = TRUE, na.strings = 'NA', stringsAsFactors = FALSE)

desired.result <- read.table(text='
     my.string                           state
     ................11111111111111111.    A
     ......1111111111111111111111111111    A
     .............1.....2..............    B
     ......1111111111111111111...2.....    B
     ....1....2........................    B
     1...2.............................    C
     ..........1111111111111111111111..    C
     .111111111111111111111111111111...    C
     .................1111111111111....    C
     ........1....2....................    C
     ......11111111111111111111111111..    C
     ....111111...2....................    D
     ......1111111111111111111111......    D
     .................1...2............    D
', header = TRUE, na.strings = 'NA', stringsAsFactors = FALSE)

下面是使用带有\\G功能和外观断言的gsub的选项。

> gsub('(?:1|\\G(?<!^))\\K\\.(?=\\.*1)', '1', my.data$my.string, perl = TRUE)
# [1] "................11111111111111111." "......1111111111111111111111111111"
# [3] ".............1.....2.............." "......1111111111111111111...2....."
# [5] "....1....2........................" "1...2............................."
# [7] "..........1111111111111111111111.." ".111111111111111111111111111111..."
# [9] ".................1111111111111...." "........1....2...................."
# [11] "......11111111111111111111111111.." "....111111...2...................."
# [13] "......1111111111111111111111......" ".................1...2............"

\\G功能是一个可以在两个位置之一匹配的锚点; 字符串位置的开头或最后一个匹配结束时的位置。 因为看起来你想避免字符串位置开头的点,我们使用一个环绕断言\\G(?<!^)来排除字符串的开头。

\\K转义序列重置报告的匹配的起始点,不再包括任何以前消耗的字符。

您可以在此处找到解释正则表达式的整体细分。

使用gsubfn ,第一个参数是一个正则表达式,它匹配1和1之间的字符并捕获后者。 第二个参数是一个函数,用公式表示法表示,它使用gsub将捕获的字符串中的每个字符替换为1:

library(gsubfn)
transform(my.data, my.string = gsubfn("1(.*)1", ~ gsub(".", 1, x), my.string))

如果字符串中可以有多对1,则使用"1(.*?)1"作为正则表达式。

可视化这里的正则表达式很简单,可以直接理解,但这里是一个debuggex可视化anwyays:

1(.*)1

正则表达式可视化

Debuggex演示

这是一个选项,它使用相对简单的正则表达式和gregexpr()regmatches()regmatches<-()的标准组合来识别,提取,操作,然后替换匹配该正则表达式的子字符串。

## Copy the character vector
x <- my.data$my.string
## Find sequences of "."s bracketed on either end by a "1"
m <- gregexpr("(?<=1)\\.+(?=1)", x, perl=TRUE)
## Standard template for operating on and replacing matched substrings
regmatches(x,m) <- sapply(regmatches(x,m), function(X) gsub(".", "1", X))

## Check that it worked
head(x)
# [1] "................11111111111111111." "......1111111111111111111111111111"
# [3] ".............1.....2.............." "......1111111111111111111...2....."
# [5] "....1....2........................" "1...2............................."

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM