python正則表達式在兩個字符串或短語之間查找內容

Question

如何在python中使用正則表達式捕獲兩個字符串或短語之間的內容，並刪除行中的所有其他內容？

例如，以下是一個單行標題后的蛋白質序列。 如何根據短語“ FlyBase_Annotation_IDs：”之后和下一個逗號“，”之前的規定從下面的標題中篩選出“ CG33289-PC”？

我需要用簡化的結果“ CG33289-PC”替換標題，而不破壞蛋白質序列（在所有大寫字母的標題行下方找到）。

這是每個蛋白質序列條目的樣子-標題后跟序列：

> FBpp0293870類型=蛋白質;位置= 3L：join（21527760..21527913,21527977..21528076,21528130..21528390,21528443..21528653,21528712..21529192,21529254..21529264）; ID = FBpp0293870; 命名= CG33289-PC; 父= FBgn0053289，FBtr0305327; dbxref = FlyBase：FBpp0293870，FlyBase_Annotation_IDs：CG33289-PC; MD5 = 478485a27487608aa2b6c35d39a3295c; 長度= 405; 釋放= r5.45; 物種= DMEL; MEMLKYVISDNNYSWWIKLYFAIIFALVLFVAVNLAVGIYNKWDSTPVII GISSKMTPIDQIPFPTITVCNMNQAKKSKVEHLMPGSIRYAMLQKTCYKE SNFSQYMDTQHRNETFSNFILDVSEKCADLIVSCIFHQQRIPCTDIFRET FVDEGLCCIFNVLHPYYLYKFKSPYIRDFTSSDRFADIAVDWDPISGYPQ RLPSSYYPRPGVGVGTSMGLQIVLNGHVDDYFCSSTNGQGFKILLYNPID QPRMKESGLPVMIGHQTSFRIIARNVEATPSIRNIHRTKRQCIFSDEQEL LFYRYYTRRNCEAECDSMFFLRLCSCIPYYLPLIYPNASVCDVFHFECLN RAESQIFDLQSSQCKEFCLTSCHDLIFFPDAFSTPFSQKDVKAQTNYLTN FSRAV

這是所需的輸出：

CG33289-PC
MEMLKYVISDNNYSWWIKLYFAIIFALVLFVAVNLAVGIYNKWDSTPVII GISSKMTPIDQIPFPTITVCNMNQAKKSKVEHLMPGSIRYAMLQKTCYKE SNFSQYMDTQHRNETFSNFILDVSEKCADLIVSCIFHQQRIPCTDIFRET FVDEGLCCIFNVLHPYYLYKFKSPYIRDFTSSDRFADIAVDWDPISGYPQ RLPSSYYPRPGVGVGTSMGLQIVLNGHVDDYFCSSTNGQGFKILLYNPID QPRMKESGLPVMIGHQTSFRIIARNVEATPSIRNIHRTKRQCIFSDEQEL LFYRYYTRRNCEAECDSMFFLRLCSCIPYYLPLIYPNASVCDVFHFECLN RAESQIFDLQSSQCKEFCLTSCHDLIFFPDAFSTPFSQKDVKAQTNYLTN FSRAV

Answer 1

使用正則表達式：

>>> s = """>FBpp0293870 type=protein;loc=3L:join(21527760..21527913,21527977..21528076,21528130..21528390,21528443..21528653,21528712..21529192,21529254..21529264); ID=FBpp0293870; name=CG33289-PC; parent=FBgn0053289,FBtr0305327; dbxref=FlyBase:FBpp0293870,FlyBase_Annotation_IDs:CG33289-PC; MD5=478485a27487608aa2b6c35d39a3295c; length=405; release=r5.45; species=Dmel; MEMLKYVISDNNYSWWIKLYFAIIFALVLFVAVNLAVGIYNKWDSTPVII
GISSKMTPIDQIPFPTITVCNMNQAKKSKVEHLMPGSIRYAMLQKTCYKE
SNFSQYMDTQHRNETFSNFILDVSEKCADLIVSCIFHQQRIPCTDIFRET
FVDEGLCCIFNVLHPYYLYKFKSPYIRDFTSSDRFADIAVDWDPISGYPQ
RLPSSYYPRPGVGVGTSMGLQIVLNGHVDDYFCSSTNGQGFKILLYNPID
QPRMKESGLPVMIGHQTSFRIIARNVEATPSIRNIHRTKRQCIFSDEQEL
LFYRYYTRRNCEAECDSMFFLRLCSCIPYYLPLIYPNASVCDVFHFECLN
RAESQIFDLQSSQCKEFCLTSCHDLIFFPDAFSTPFSQKDVKAQTNYLTN
FSRAV"""
>>> import re
>>> print re.sub(r'.*FlyBase_Annotation_IDs:([\w-]+).*;', r'\1\n', s)
CG33289-PC
 MEMLKYVISDNNYSWWIKLYFAIIFALVLFVAVNLAVGIYNKWDSTPVII
GISSKMTPIDQIPFPTITVCNMNQAKKSKVEHLMPGSIRYAMLQKTCYKE
SNFSQYMDTQHRNETFSNFILDVSEKCADLIVSCIFHQQRIPCTDIFRET
FVDEGLCCIFNVLHPYYLYKFKSPYIRDFTSSDRFADIAVDWDPISGYPQ
RLPSSYYPRPGVGVGTSMGLQIVLNGHVDDYFCSSTNGQGFKILLYNPID
QPRMKESGLPVMIGHQTSFRIIARNVEATPSIRNIHRTKRQCIFSDEQEL
LFYRYYTRRNCEAECDSMFFLRLCSCIPYYLPLIYPNASVCDVFHFECLN
RAESQIFDLQSSQCKEFCLTSCHDLIFFPDAFSTPFSQKDVKAQTNYLTN
FSRAV
>>>

Answer 2

這不是一個很好的解決方案，但這應該適合您：

>>> fly = 'FlyBase_Annotation_IDs'
>>> repl = 'CG33289-PC'
>>> part1, part2 = protein.split(fly)
>>> part2 = part2.replace(repl, "FooBar")
>>> protein = fly.join([part1, part2])

假設FlyBase_Annotation_IDs只能在數據中出現一次。

Answer 3

我不確定文件的格式，但是此正則表達式將捕獲示例中的數據：

"FlyBase_Annotation_IDs:([A-Z0-9a-z-]*);"

使用findall函數獲取匹配項。

Answer 4

假設標題后有一個換行符：

>>> import re
>>> protein = "..."
>>> r = re.compile(r"^.*FlyBase_Annotation_IDs:([A-Z0-9a-z-]*);.*$", re.MULTILINE)
>>> r.sub(r"\1", protein)

正則表達式中的組([A-Z0-9a-z-]*)提取任何字母數字字符和破折號。 如果ID可以包含其他字符，則只需添加它們即可。

python正則表達式在兩個字符串或短語之間查找內容

問題描述

4 個解決方案

解決方案1
2 已采納 2012-06-26 08:06:39

解決方案2
1 2012-06-26 07:47:39

解決方案3
1 2012-06-26 07:49:12

解決方案4
1 2012-06-26 08:07:10

python正則表達式在兩個字符串或短語之間查找內容

問題描述

4 個解決方案

解決方案1 2 已采納 2012-06-26 08:06:39

解決方案2 1 2012-06-26 07:47:39

解決方案3 1 2012-06-26 07:49:12

解決方案4 1 2012-06-26 08:07:10

解決方案1
2 已采納 2012-06-26 08:06:39

解決方案2
1 2012-06-26 07:47:39

解決方案3
1 2012-06-26 07:49:12

解決方案4
1 2012-06-26 08:07:10