繁体   English   中英

gsub - 从单词末尾修剪一系列字母/数字

[英]gsub - trim a sequence of letters/numbers from the end of a word

我有一个包含 900 个名字的列表,例如:

  • miR.30a.5p.11TC.0.0.0
  • miR.30a.5p.0.G.0.ag
  • miR.21.5p.0.A.0.tga
  • miR.30a.3p.0.TA.cc

我很想知道有多少 miR 在序列中的最后一个点之前有“0”。 我尝试了 grep 和 gsub 的不同组合(从最后一个点之后删除字母/数字),但由于最后的字母长度可变,我无法解决。 我将非常感谢您的帮助。

预期输出是:

  • 最后一个点前有 0 的 miR 的数量(例如这个:miR.21.5p.0.A.0.tga,但不是这个:miR.30a.3p.0.TA.cc)。
  • 或修剪最后一个点之后的所有内容
  • miR.30a.5p.11TC.0.0
  • miR.30a.5p.0.G.0
  • 等等。

示例数据

names <- c("miR.30a.5p.11TC.0.0.0", 
       "miR.30a.5p.0.G.0.ag", 
       "miR.21.5p.0.A.0.tga", 
       "miR.30a.3p.0.TA.c.c", 
       "miR.30a.5p.11TC.0.0", 
       "miR.30a.5p.0.G.0")

工作流程

  1. 用 '.' 分割字符串
  2. 反向分割向量
  3. 取第二个元素
filt <- unlist(lapply(lapply(strsplit(names, ".", fixed=T), rev), "[[", 2)) == "0" # boolean vector with TRUE where 
sum(filt) # nb of files with zeros as second last element

最好的,克里斯

基于 R 的想法,

sum(sapply(x, function(i){i1 <- strsplit(i, '.', fixed = TRUE)[[1]]; 
                          i1[(length(i1)) - 1] == 0}))

#[1] 3

或者使用stringr包,

#For the sum,
sum(stringr::word(x, -2, sep = '\\.') == 0)
#[1] 3

#For trimming
stringr::word(x, 1, -2, sep = '\\.')
#[1] "miR.30a.5p.11TC.0.0" "miR.30a.5p.0.G.0"    "miR.21.5p.0.A.0"   "miR.30a.3p.0.TA.c"

数据

x <- c('miR.30a.5p.11TC.0.0.0', 
       'miR.30a.5p.0.G.0.ag', 
       'miR.21.5p.0.A.0.tga', 
       'miR.30a.3p.0.TA.c.c')
sum(gsub('.*\\.(.*)\\..*','\\1',x)==0)
[1] 3


  • .*任意数量的字符,也可能包含点
  • \\\\. 文字点
  • (.*)任意数量的字符组。 我们将使用\\\\1取回该组
  • \\\\..*一个文字点“最后一个点”后跟任意数量的字符

  • 暂无
    暂无

    声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

     
    粤ICP备18138465号  © 2020-2024 STACKOOM.COM