正則表達式僅當捕獲組出現在字符串的最后一個時才匹配

Question

我在 Pandas 數據框中有很多行，例如

df = pd.DataFrame({'Text':['k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium', 
'k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium|s__Bifidobacterium_pseudolongum',
'k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium|s__Bifidobacterium_pseudolongum|t__GCF_000421365']})

我想在字符串的末尾返回匹配g__的那些，例如使用以下正則表達式：

g__$

我希望得到這個結果：

k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium

但排除這些：

k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium|s__Bifidobacterium_pseudolongum
k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium|s__Bifidobacterium_pseudolongum|t__GCF_000421365

Answer 1

您可以使用

df = df[df['Text'].str.contains(r'\|g__[^|]*$')]

\\|g__[^|]*$正則表達式匹配|g__然后零個或多個除|字符直到字符串的末尾。

請參閱正則表達式演示。

熊貓測試：

import pandas as pd
df = pd.DataFrame({'Text':['k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium', 
'k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium|s__Bifidobacterium_pseudolongum',
'k__Bacteria|p__Actinobacteria|c__Actinobacteria|o__Bifidobacteriales|f__Bifidobacteriaceae|g__Bifidobacterium|s__Bifidobacterium_pseudolongum|t__GCF_000421365']})
df = df[df['Text'].str.contains(r'\|g__[^|]*$')]

正則表達式僅當捕獲組出現在字符串的最后一個時才匹配

問題描述

1 個解決方案

解決方案1
1 已采納 2020-11-06 15:16:35

正則表達式僅當捕獲組出現在字符串的最后一個時才匹配

問題描述

1 個解決方案

解決方案1 1 已采納 2020-11-06 15:16:35

解決方案1
1 已采納 2020-11-06 15:16:35