如何在 Python 數據框中的特定模式之前提取某個字母 n#s？

Question

我在列出 DNA 序列的數據框中有一列，我想做以下兩件事。 下面是數據集的一個例子

d = [['ampC','tacggtctggctgctatcctgacagttgtcacgctgattggtgtcgttacaatctaacgcAtcgccaatgtaaatccggcccgcc'], ['yifL','acttcataaagagtcgctaaacgcttgcttttacgtcttctcctgcgatgatagaaagcaGaaagcgatgaactttacaggcaat'],['glyW','tcaaaagtggtgaaaaatatcgttgactcatcgcgccaggtaagtagaatgcaacgcatcGaacggcggcactgattgccagacg']]
df = pd.DataFrame(d, columns = ['gene','Sequence'])

基因	序列
放大器	tacggtctggctgctatcctgacagttgtcacgctgattggtgtcgttacaatctaacgcAtcgccaatgtaaatccggcccgcc
yifL	acttcataaagagtcgctaaacgcttgcttttacgtcttctcctgcgatgatagaaagcaGaaagcgatgaactttacaggcaat
glyW	tcaaaagtggtgaaaaatatcgttgactcatcgcgccaggtaagtagaatgcaacgcatcGaacggcggcactgattgccagacg

提取大寫字母及其前面的所有內容。 使用str.extract(r"(.*?)[AZ]+", expand=True)我可以得到大寫字母之前的所有內容，但我也需要幫助弄清楚如何獲得大寫字母。

我要為 ampC 獲取的示例：tacggtctggctgctatcctgacagttgtcacgctgattggtgtcgttacaatctaacgcA

如何提取大寫字母前的第 16 個字母。

我正在嘗試獲取以下 3 個基因的示例：

基因	信
放大器	C
yifL	G
glyW	噸

[c，g，t]

Answer 1

你可以試試：

df["SubSequence"] = df["Sequence"].str.extract(r'^(.*?[A-Z])')
df["letter"] = df["Sequence"].str.extract(r'^[acgt]*([acgt])[acgt]{15}[A-Z]')

Answer 2

您的正則表達式幾乎就是您所需要的。 只需在組內移動大寫字母。 嘗試：

df["substring"] = df["Sequence"].str.extract(r"(.*?[A-Z])")[0]
df["letter"] = df["Sequence"].str.extract(r"(.*?[A-Z])")[0].str[-17]

>>> df[["gene", "letter"]]
   gene letter
0  ampC      c
1  yifL      g
2  glyW      t

如何在 Python 數據框中的特定模式之前提取某個字母 n#s？

問題描述

2 個解決方案

解決方案1
1 2021-10-04 16:31:24

解決方案2
0 已采納 2021-10-04 16:29:34

如何在 Python 數據框中的特定模式之前提取某個字母 n#s？

問題描述

2 個解決方案

解決方案1 1 2021-10-04 16:31:24

解決方案2 0 已采納 2021-10-04 16:29:34

解決方案1
1 2021-10-04 16:31:24

解決方案2
0 已采納 2021-10-04 16:29:34