Python使用正則表達式在pandas列中提取字符串的一部分

Question

我有一個名為“ Raw”的pandas df列，其格式不一致。 它包含的字符串如下所示：

'(1T XXX, Europe)'
'(2T YYYY, Latin America)'
'(3T ZZ/ZZZZ, Europe)'
'(4T XXX XXX, Africa)'

“原始”（Raw）字符串中唯一一致的地方是，它們以數字開頭，中間包含逗號，后跟空格，並且還包含括號。

現在，我想在數據框中創建兩個額外的列（“模型”和“區域”）：

“模型”將包含字符串的開頭，即第一個括號和逗號之間的所有內容
“區域”將包含字符串的末尾，即逗號后的空格和最后的括號之間的所有內容

我該如何使用正則表達式呢？

Answer 1

由於只有一個逗號，並且所有內容都在括號之間，因此，在適當切片后，請使用.str.split()代替：

model_region = df.Raw.str[1:-1].str.split(', ', expand = True)

但是，如果您堅持：

model_region = df.Raw.str.extract('\((.*), (.*)\)', expand = True)

然后

df['Model'] = model_region[0]
df['Region'] = model_region[1]

Answer 2

試試這個： \\(([^,]*), ([^)]*)\\)

參見： https : //regex101.com/r/fCetWg/1

Answer 3

import re

s = '(3T ZZ/ZZZZ, Europe)'
m=re.search(r'\((.*), (.*)\)',s)
print(m.groups())

Answer 4

Model=re.findall(r"(?<=\().+(?=\,)",s)
Region=re.findall(r"(?<=\, ).+(?=\))",s)

第一個正則表達式檢查模型前面的括號“（”，然后關閉“，”。第二個正則表達式檢查“，”和“）”之間的任何字符串。

Answer 5

string_list = ['(1T XXX, Europe)',
'(2T YYYY, Latin America)',
'(3T ZZ/ZZZZ, Europe)',
'(4T XXX XXX, Africa)']
df = pd.DataFrame(string_list)
df = df[0].str.extract("\(([^,]*), ([^)]*)\)", expand=False)

Answer 6

如果逗號是字符串部分的可靠分隔符，則不需要regexp。 如果df是您的數據幀：

df['Model'] = [x.split(',')[0].replace('(', '') for x in df['Raw']]
df['Region'] = [x.split(',')[1].replace(')', '') for x in df['Raw']]

如果您想使用regexp，它將類似於：

s = '(1T XXX, Europe)'
m = re.match('\(([\w\s]+),([\w\s]+)\)', s)
model = m.group(1)
region = m.group(2)

Python使用正則表達式在pandas列中提取字符串的一部分

問題描述

6 個解決方案

解決方案1
3 2017-07-05 09:32:42

解決方案2
1 2017-07-05 09:32:16

解決方案3
0 2017-07-05 09:35:33

解決方案4
0 2017-07-05 09:39:39

解決方案5
0 2017-07-05 09:42:53

解決方案6
0 2017-07-05 09:47:09

Python使用正則表達式在pandas列中提取字符串的一部分

問題描述

6 個解決方案

解決方案1 3 2017-07-05 09:32:42

解決方案2 1 2017-07-05 09:32:16

解決方案3 0 2017-07-05 09:35:33

解決方案4 0 2017-07-05 09:39:39

解決方案5 0 2017-07-05 09:42:53

解決方案6 0 2017-07-05 09:47:09

解決方案1
3 2017-07-05 09:32:42

解決方案2
1 2017-07-05 09:32:16

解決方案3
0 2017-07-05 09:35:33

解決方案4
0 2017-07-05 09:39:39

解決方案5
0 2017-07-05 09:42:53

解決方案6
0 2017-07-05 09:47:09