[英]Using python 2.7 and regex to find substring using beginning and end of substring (codons)
(python 2.7)我有一個 RNA 序列,我試圖找到所有以“AUG”開頭並以“UAG”或“UGA”或“UAA”結尾的非重疊子串,這就是我正在使用的:
import re
sequence = GAUGCAAAAUAAAUGAUGUAAUAA
search = r"^(AUG(.)*(?:UAG|UAA|UGA))"
regions = re.findall(search, sequence)
print regions
輸出應為“AUGCAAAA”和“AUGAUG”。 但是我得到了整個區域'AUGCAAAAUAAAUGAUGUAAUAA'
看起來你需要使用
AUG.*?(?=UAG|UAA|UGA)
詳情:
AUG
- 匹配AUG
.*?
- 除換行符以外的任何 0+ 個字符,在第一個之前盡可能少......(?=UAG|UAA|UGA)
- UAG
或UAA
或UGA
(它們不是返回值的一部分,因為該模式位於作為零寬度斷言的正前瞻內)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.