在 Python 中研究特殊字符的問題

Question

我有一個文件（我只顯示了一部分），我想在其中刪除一個特殊字符。

OTU1359 UniRef90_A0A095VQ09 UniRef90_A0A0C1UI80 UniRef90_A0A1M4ZSK2 UniRef90_A0A1W1CJV7 UniRef90_A0A1Z9J2X0 UniRef90_A0A1Z9THL2 UniRef90_A0A2E3B6A5 UniRef90_A0A2E5MT47 UniRef90_A0A2E5VCW9 UniRef90_A0A2E6CDK4 UniRef90_A0A2E6KTE6 UniRef90_A0A2E8AIM6 UniRef90_A0A2E8RIG1 UniRef90_A0A2E8YNS3 UniRef90_A0A2E9VEK0 UniRef90_W6RCT6

OTU0980 UniRef90_A0A084TMQ7 UniRef90_A0A090PK65 UniRef90_A0A0P1G8P0 UniRef90_A0A0P1IHL1 UniRef90_A0A286ILS7 UniRef90_A0A2A5E7H9 UniRef90_A0A2D9J217 UniRef90_H3NS47 UniRef90_H3NSN9 UniRef90_H3NSP0 UniRef90_H3NSP7 UniRef90_H3NUB2 UniRef90_H3NY28 UniRef90_H3NY47 UniRef90_UPI000C2CBC51

我想刪除字符“OTUXXXX”（它總是以 OTU 開頭，后面總是有 4 個數字）。 它可以按行出現多個 OTUXXXX

我試過：

re.search("OTU[0-9]{4}", line)

它不起作用..有什么幫助嗎？

Answer 1

您可以使用re.sub ，它實際上使用您提供的文本執行替換或替換匹配文本。 在這里您可以找到文檔： https : //docs.python.org/3/library/re.html

這是一種可能的實現：

from re import compile, sub, MULTILINE

text = '''
OTU1359 UniRef90_A0A095VQ09 UniRef90_A0A0C1UI80 UniRef90_A0A1M4ZSK2 UniRef90_A0A1W1CJV7 UniRef90_A0A1Z9J2X0 UniRef90_A0A1Z9THL2 UniRef90_A0A2E3B6A5 UniRef90_A0A2E5MT47 UniRef90_A0A2E5VCW9 UniRef90_A0A2E6CDK4 UniRef90_A0A2E6KTE6 UniRef90_A0A2E8AIM6 UniRef90_A0A2E8RIG1 UniRef90_A0A2E8YNS3 UniRef90_A0A2E9VEK0 UniRef90_W6RCT6

OTU0980 UniRef90_A0A084TMQ7 UniRef90_A0A090PK65 UniRef90_A0A0P1G8P0 UniRef90_A0A0P1IHL1 UniRef90_A0A286ILS7 UniRef90_A0A2A5E7H9 UniRef90_A0A2D9J217 UniRef90_H3NS47 UniRef90_H3NSN9 UniRef90_H3NSP0 UniRef90_H3NSP7 UniRef90_H3NUB2 UniRef90_H3NY28 UniRef90_H3NY47 UniRef90_UPI000C2CBC51
'''

replacemnt = ''
regex = compile(r'OTU\d{4}', flags=MULTILINE)
cleaned = sub(regex, replacemnt, text)

Answer 2

我建議使用re.sub並將您的模式匹配作為整個單詞來查找，以避免在其他單詞中進行部分匹配。

s = re.sub(r"\s*\bOTU[0-9]{4}\b", "", line).strip()

請參閱正則表達式演示。 .strip()刪除在刪除字符串末尾/開頭的匹配項后剩余的任何多余的前導/尾隨空格。

請參閱正則表達式圖：

在 Python 中研究特殊字符的問題

問題描述

2 個解決方案

解決方案1
1 2019-06-20 09:58:39

解決方案2
0 已采納 2019-06-20 09:49:27

在 Python 中研究特殊字符的問題

問題描述

2 個解決方案

解決方案1 1 2019-06-20 09:58:39

解決方案2 0 已采納 2019-06-20 09:49:27

解決方案1
1 2019-06-20 09:58:39

解決方案2
0 已采納 2019-06-20 09:49:27