簡體   English   中英

如何返回 Pandas 數據框中的特定子字符串

[英]How do I return a specific substring within a Pandas dataframe

我有一列文本,我需要找到子字符串並返回整個單詞,但無法弄清楚如何獲取整個單詞。

每列的底部都有一個編碼標記為“ATT03”、“ATT04”等的文本,我想使用該 ATT 並為每個標簽創建一個新列。

因此,例如我的專欄如下所示:

blahblahblah 文本 [ATT03]:blahblahblah

blahblahblah 文本 [ATT03]:blahblahblah

blahblahblah 文本 [ATT04]:blahblahbblahblah

廢話 [ATT08]: blahblahblah

df_att=(df2.loc[:,'Report Text'].str.split("ATT",1)).str[-1]

我用它來創建一個新列,但它只將數據拆分為“ATT08:blahblahblahblah”,我真的只想要“[]”之間的 ATT。 我不需要所有無關的數據。

是否有僅返回 ATT03 的正則表達式/代碼? 沒有周圍的其余字符串?

太感謝了。 我已經為此苦苦掙扎了幾個小時,感到很沮喪。

您可以使用以下正則表達式:

df_att=(df2.loc[:,'Report Text'].str.extract("\[(ATT[^\]]*)")

它將提取您要查找的括號之間的文本。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM