Python：從有條件的字符串中提取 smth

Question

我有數據，看起來像

Respublika Tatarstan, Kazan'
Krasnodar Krai, Krasnodar
Tverskaya region, Tver

期望的輸出：

respublika Tatarstan
Krasnodar krai
Tverskaya region

我試着用

for addr in df.address.values.tolist():
    re.findall(r'(\w+( krai| region))|((?:respublika )\w+)', addr)

但它返回元組列表並且在respublika之后找不到對象。

Answer 1

您可以使用

import re
rx = r"\b[A-Z]\w*\s+(?:[kK]rai|[rR]egion)|\b[rR]espublika\s+[A-Z]\w*"
s = "Something in Respublika Tatarstan, Kazan\nWhat a Krasnodar Krai, Krasnodar I have seen!\nIn Tverskaya region, Tver, it is not so uncommon."
print(re.findall(rx, s))

這個想法是匹配region 、 Region 、 krai或Krai之前的任何大寫單詞，或者Respublika或respublika之后的大寫單詞。

觀看Python 演示。 如果您只想匹配字母，請將\\w替換為[^\\W\\d_] 。

在此處查看正則表達式演示。

細節

\\b - 詞邊界
[AZ]\\w* - 大寫 ASCII 字母后跟 0+ 個單詞字符
\\s+ - 1+ 個空格
(?:[kK]rai|[rR]egion) - region , Region , krai或Krai
| - 或者
\\b - 詞邊界
[rR]espublika - Respublika或respublika
\\s+ - 1+ 個空格
[AZ]\\w* - 大寫 ASCII 字母后跟 0+ 個單詞字符

Python：從有條件的字符串中提取 smth

問題描述

1 個解決方案

解決方案1
0 2018-02-19 12:07:15

Python：從有條件的字符串中提取 smth

問題描述

1 個解決方案

解決方案1 0 2018-02-19 12:07:15

解決方案1
0 2018-02-19 12:07:15