如何返回 Pandas 數據框中的特定子字符串

Question

我有一列文本，我需要找到子字符串並返回整個單詞，但無法弄清楚如何獲取整個單詞。

每列的底部都有一個編碼標記為“ATT03”、“ATT04”等的文本，我想使用該 ATT 並為每個標簽創建一個新列。

因此，例如我的專欄如下所示：

blahblahblah 文本 [ATT03]：blahblahblah

blahblahblah 文本 [ATT04]：blahblahbblahblah

廢話 [ATT08]: blahblahblah

df_att=(df2.loc[:,'Report Text'].str.split("ATT",1)).str[-1]

我用它來創建一個新列，但它只將數據拆分為“ATT08：blahblahblahblah”，我真的只想要“[]”之間的 ATT。 我不需要所有無關的數據。

是否有僅返回 ATT03 的正則表達式/代碼？ 沒有周圍的其余字符串？

太感謝了。 我已經為此苦苦掙扎了幾個小時，感到很沮喪。

Answer 1

您可以使用以下正則表達式：

df_att=(df2.loc[:,'Report Text'].str.extract("\[(ATT[^\]]*)")

它將提取您要查找的括號之間的文本。