[英]How to extract text before and after a keyword and date
我想從數據框列中分離出作者的姓名,域名和日期。
雖然.split(“中的”)可以很好地分隔左側的作者姓名,但我也想分隔域和日期,但不能通過空格符號分隔。
from pandas import DataFrame
Cars = {'Details': ['Daniel Jacobs in HackeMoon.comJul 31, 2017','Wil Zelk in websiteabc.deJan 28','Wil Zelk in anotherwebsite.chJan 28, 2019'],
}
df = DataFrame(Cars,columns= ['Details'])
print(df)
df = df.Details.str.split(" in ", expand=True)
print(df)
您可以結合使用正則表達式嘗試使用DataFrame.str.extract
:
df['Details'].str.extract(r'(?P<author>.*?) in (?P<url>.*)(?P<date>[A-Z].*)', expand=True)
這樣產生:
author url date
0 Daniel Jacobs HackeMoon.com Jul 31, 2017
1 Wil Zelk websiteabc.de Jan 28
2 Wil Zelk anotherwebsite.ch Jan 28, 2019
為了分隔字符串,我使用以下假設:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.