从python中的字符串中删除前导文本字符

Question

import pandas as pd
import re
df = pd.DataFrame({'fix_this_field':['dogstreet 1234, st, texas 57500', 'animal hospital of dallas, 233 medical ln '], 'needed solution':['1234, st texas 57500', '233 medical ln']})
df #look what i want

我想在第一个数字后提取所有数据，包括数字。 请参阅dataframe中的解决方案列。 所以像'hospital2019 lane'这样的东西会成为'2019 lane'。

我试着沿着下面的东西看一些东西，但我正在挣扎着撞在墙上。 请让我知道我的方式的错误。

x = 'hospital2019 lane'
r = re.compile("^([a-zA-Z]+)([0-9]+)")
m = r.match(x)
m.groups()
# it stops at 2019.   I want 2019 lane.....('hospital', '2019')

Answer 1

使用split轻松实现

df.fix_this_field.str.split('(\d)',1).str[1:].apply(''.join)
Out[475]: 
0    1234, st, texas 57500
1          233 medical ln 
Name: fix_this_field, dtype: object
df['col']=df.fix_this_field.str.split('(\d)',1).str[1:].apply(''.join)

Answer 2

如果你必须使用正则表达式，下面是一个尝试：

正则表达式： (?:[a-zA-Z ])([0-9]+.*)

reg = re.compile('(?:[a-zA-Z ,])([0-9]+.*)')

def clean(col):
    return re.findall(reg, col)[0] if re.findall(reg, col) else None

df.fix_this_field.apply(clean)

Out[1]:
0    1234, st, texas 57500
1          233 medical ln 
Name: fix_this_field, dtype: object

Answer 3

我找到了df.fix_this_field.apply(lambda x: x[re.search("\\d",x).start():])和df.fix_this_field.apply(lambda x: ''.join(re.split('(\\d)',x,1)[1:]))几倍于df.fix_this_field.str.split('(\\d)',1).str[1:].apply(''.join) 。

从python中的字符串中删除前导文本字符

问题描述

3 个解决方案

解决方案1
3 已采纳 2019-08-21 17:30:45

解决方案2
1 2019-08-21 17:36:58

解决方案3
0 2019-08-21 18:16:08

从python中的字符串中删除前导文本字符

问题描述

3 个解决方案

解决方案1 3 已采纳 2019-08-21 17:30:45

解决方案2 1 2019-08-21 17:36:58

解决方案3 0 2019-08-21 18:16:08

解决方案1
3 已采纳 2019-08-21 17:30:45

解决方案2
1 2019-08-21 17:36:58

解决方案3
0 2019-08-21 18:16:08