python替換沒有空格的正則表達式匹配

Question

我基本上想“加入”應該清楚地在一起的數字。 我想用它自己替換正則表達式匹配，但沒有任何空格。

我有：

df
               a
'Fraxiparine 9 500 IU (anti-Xa)/1 ml'
'Colobreathe 1 662 500 IU inhalačný prášok v tvrdej kapsule'

我希望有：

df
               a
'Fraxiparine 9500 IU (anti-Xa)/1 ml'
'Colobreathe 1662500 IU inhalačný prášok v tvrdej kapsule'

我正在使用r'\d+\s+\d+\s*\d+'來匹配數字，並且我創建了以下函數來刪除字符串中的空格：

def spaces(x):
    match = re.findall(r'\d+\s+\d+\s*\d+', x)
    return match.replace(" ","")

現在我無法將該函數應用於完整的數據幀，但我也不知道如何用沒有任何空格的字符串替換原始匹配。

Answer 1

嘗試使用以下代碼：

def spaces(s):
    return re.sub('(?<=\d) (?=\d)', '', s)

df['a'] = df['a'].apply(spaces)

正則表達式將匹配：

任何空間
前面有一個數字(?<=\d)
后跟一個數字(?=\d) 。

然后， pandas.Series.apply函數會將您的函數應用於數據框的所有行。

輸出：

0   Fraxiparine 9500 IU (anti-Xa)/1 ml
1   Colobreathe 1662500 IU inhalačný prášok v tvrd...

Answer 2

我相信您的問題可以通過稍微調整您的函數來解決，以便應用於整個字符串“匹配”，如下所示：

import pandas as pd
import re

df = pd.DataFrame({'a' : ['Fraxiparine 9 500 IU (anti-Xa)/1 ml','Colobreathe 1 662 500 IU inhalačný prášok v tvrdej kapsule']})

# your function
def spaces(x):
    match = re.findall(r'\d+\s+\d+\s*\d+', x)
    replace_with = match[0].replace(" ","")
    return x.replace(match[0], replace_with)

# now apply it on the whole dataframe, row per row
df['a'] = df['a'].apply(lambda x: spaces(x))

Answer 3

利用

df['a'] = df['a'].str.replace(r'(?<=\d)\s+(?=\d)', '', regex=True)

解釋

NODE                     EXPLANATION
--------------------------------------------------------------------------------
  (?<=                     look behind to see if there is:
--------------------------------------------------------------------------------
    \d                       digits (0-9)
--------------------------------------------------------------------------------
  )                        end of look-behind
--------------------------------------------------------------------------------
  \s+                      whitespace (\n, \r, \t, \f, and &quot; &quot;) (1 or
                           more times (matching the most amount
                           possible))
--------------------------------------------------------------------------------
  (?=                      look ahead to see if there is:
--------------------------------------------------------------------------------
    \d                       digits (0-9)
--------------------------------------------------------------------------------
  )                        end of look-ahead

如果您的計划是僅刪除\d+\s+\d+\s*\d+中的空格：

df['a'] = df['a'].str.replace(r'\d+\s+\d+\s*\d+', lambda m: re.sub(r'\s+', '', m.group()), regex=True)

見str.replace ：

repl : str 或可調用
替換字符串或可調用對象。 可調用對象傳遞正則表達式匹配對象，並且必須返回要使用的替換字符串。 參見 re.sub()。

python替換沒有空格的正則表達式匹配

問題描述

3 個解決方案

解決方案1
0 已采納 2022-06-02 15:30:11

解決方案2
0 2022-06-02 15:40:02

解決方案3
0 2022-06-02 21:17:19

python替換沒有空格的正則表達式匹配

問題描述

3 個解決方案

解決方案1 0 已采納 2022-06-02 15:30:11

解決方案2 0 2022-06-02 15:40:02

解決方案3 0 2022-06-02 21:17:19

解決方案1
0 已采納 2022-06-02 15:30:11

解決方案2
0 2022-06-02 15:40:02

解決方案3
0 2022-06-02 21:17:19