繁体   English   中英

使用python 2.7和regex使用子字符串的开头和结尾(密码子)查找子字符串

[英]Using python 2.7 and regex to find substring using beginning and end of substring (codons)

(python 2.7)我有一个 RNA 序列,我试图找到所有以“AUG”开头并以“UAG”或“UGA”或“UAA”结尾的非重叠子串,这就是我正在使用的:

import re
sequence = GAUGCAAAAUAAAUGAUGUAAUAA
search = r"^(AUG(.)*(?:UAG|UAA|UGA))" 
regions = re.findall(search, sequence)
print regions

输出应为“AUGCAAAA”和“AUGAUG”。 但是我得到了整个区域'AUGCAAAAUAAAUGAUGUAAUAA'

看起来你需要使用

AUG.*?(?=UAG|UAA|UGA)

看到这个正则表达式演示

详情

  • AUG - 匹配AUG
  • .*? - 除换行符以外的任何 0+ 个字符,在第一个之前尽可能少......
  • (?=UAG|UAA|UGA) - UAGUAAUGA (它们不是返回值的一部分,因为该模式位于作为零宽度断言的正前瞻内)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM