如何匹配字符串模式？

Question

我有一個數據集，其中 2 列的每一行都包含一個這樣的字符串 -

WO-05078125：AN20033315：客戶更換的訂購部件
WO-04981906：AN19550541：回答了生物醫學問題

我試圖擺脫第一部分WO-05078125: AN20033315: 。 數字可能不同，但總是相同的模式。

請問我該如何解決這個問題？

Answer 1

您可以使用正則表達式。

import re
re.sub(pattern, repl(acement), string)

因為您不想用任何東西替換它，所以您可以使用空字符串來擺脫它。 您可以使用 'WO-05078125: ' 作為模式，但您也可以使用特殊字符，如\d（數字）或類似的東西。 更多請點擊這里

Answer 2

我認為這可以解決您的問題。

rows = ["WO-04981906: AN19550541: Answered Biomed questions", "WO-05078125: AN20033315: Ordered part for customer to exchange", ......]
first_part = []
second_part = []
last_part = []
for row in rows:
    split_row = row.split(":")
    first_part.append(split_row[0])
    second_part.append(split_row[1])
    last_part.append(split_row[2])

在first_part中全是"WO-XXXXXXXX" ，在second_part中全是"ANXXXXXXXX" ，在last_part中全是描述。

Answer 3

解決問題最直接的方法之一是使用正則表達式，但我並不是說直接使用re模塊。 相反，您可以使用pandas及其名為repalce的內置函數之一。 通過查看下面的代碼，您可以更深入地了解該過程。 由於您沒有提供可重現的示例，因此我使用您的輸入示例制作了一個 dataframe。

import pandas as pd
df = pd.DataFrame({"myColumn": ["WO-05078125: AN20033315: Ordered part for customer to exchange", "WO-04981906: AN19550541: Answered Biomed questions"]})

df["replaced"] = df["myColumn"].str.replace("WO\-\d+\:\sAN\d+\:\s", "")
df

Output

	我的專欄	更換
0	WO-05078125：AN20033315：客戶更換的訂購部件	訂購的零件供客戶更換
1個	WO-04981906：AN19550541：回答了生物醫學問題	回答生物醫學問題

解釋

WO\-\d+\:\sAN\d+\:\s是我們在這種情況下使用的模式。 它用空字符串（“”）替換所需的部分。

如何匹配字符串模式？

問題描述

3 個解決方案

解決方案1
0 2022-03-03 13:40:18

解決方案2
0 2022-03-03 13:49:44

解決方案3
0 已采納 2022-03-03 14:01:19

Output

解釋

如何匹配字符串模式？

問題描述

3 個解決方案

解決方案1 0 2022-03-03 13:40:18

解決方案2 0 2022-03-03 13:49:44

解決方案3 0 已采納 2022-03-03 14:01:19

Output

解釋

解決方案1
0 2022-03-03 13:40:18

解決方案2
0 2022-03-03 13:49:44

解決方案3
0 已采納 2022-03-03 14:01:19