Python Pandas正則表達式替換匹配模式的一部分

Question

我有很多這樣的地址：

df['street'] =
    5311 Whitsett Ave 34
    355 Sawyer St
    607 Hampshire Rd #358
    342 Old Hwy 1
    267 W Juniper Dr 402

我想要做的是刪除地址街道部分末尾的那些數字，以獲得：

df['street'] =
    5311 Whitsett Ave
    355 Sawyer St
    607 Hampshire Rd
    342 Old Hwy 1
    267 W Juniper Dr

我有這樣的正則表達式：

df['street'] = df.street.str.replace(r"""\s(?:dr|ave|rd)[^a-zA-Z]\D*\d+$""", '', case=False)

這給了我這個：

df['street'] =
    5311 Whitsett
    355 Sawyer St
    607 Hampshire
    342 Old Hwy 1
    267 W Juniper

它從我原來的街道地址中刪除了“ Ave”，“ Rd”和“ Dr”一詞。 有沒有辦法保留部分正則表達式模式（在我的情況下是“ Ave”，“ Rd”，“ Dr”並替換其余部分？

編輯：注意地址342 Old Hwy 1 。 在這種情況下，我也不想取出這個數字。 這就是為什么我指定模式（“ Ave”，“ Rd”，“ Dr”等）以更好地控制誰被更改的原因。

Answer 1

    df_street = '''
        5311 Whitsett Ave 34
        355 Sawyer St
        607 Hampshire Rd #358
        342 Old Hwy 1
        267 W Juniper Dr 402
        '''
    # digits on the end are preceded by one of ( Ave, Rd, Dr), space,
    # may be preceded by a #, and followed by a possible space, and by the newline
   df_street = re.sub(r'(Ave|Rd|Dr)\s+#?\d+\s*\n',r'\1\n', df_street,re.MULTILINE|re.IGNORECASE)
print(df_street)

    5311 Whitsett Ave
    355 Sawyer St
    607 Hampshire Rd
    342 Old Hwy 1
    267 W Juniper Dr

Answer 2

您應該使用以下正則表達式：

>>> import re
>>> example_str = "607 Hampshire Rd #358"
>>> re.sub(r"\s*\#?[^\D]+\s*$", r"", example_str)
'607 Hampshire Rd'

Python Pandas正則表達式替換匹配模式的一部分

問題描述

2 個解決方案

解決方案1
1 已采納 2015-10-16 17:45:33

解決方案2
0 2015-10-16 17:05:17

Python Pandas正則表達式替換匹配模式的一部分

問題描述

2 個解決方案

解決方案1 1 已采納 2015-10-16 17:45:33

解決方案2 0 2015-10-16 17:05:17

解決方案1
1 已采納 2015-10-16 17:45:33

解決方案2
0 2015-10-16 17:05:17