Python正則表達式：匹配所有連續的大寫單詞

Question

簡短的問題：

我有一個字符串：

title="Announcing Elasticsearch.js For Node.js And The Browser"

我想找到每個單詞都正確大寫的所有單詞對。

所以，預期產量應該是：

['Announcing Elasticsearch.js', 'Elasticsearch.js For', 'For Node.js', 'Node.js And', 'And The', 'The Browser']

我現在擁有的是：

'[A-Z][a-z]+[\s-][A-Z][a-z.]*'

這給了我輸出：

['Announcing Elasticsearch.js', 'For Node.js', 'And The']

如何更改我的正則表達式以提供所需的輸出？

Answer 1

你可以用這個：

#!/usr/bin/python
import re

title="Announcing Elasticsearch.js For Node.js And The Browser TEst"
pattern = r'(?=((?<![A-Za-z.])[A-Z][a-z.]*[\s-][A-Z][a-z.]*))'

print re.findall(pattern, title)

“正常”模式不能匹配重疊的子串，所有字符都是一次性建立的。 但是，前瞻(?=..) （即“后跟”）只是一個檢查並且不匹配。 它可以多次解析字符串。 因此，如果將捕獲組放在前瞻中，則可以獲得重疊的子串。

Answer 2

可能有一種更有效的方法，但你可以使用這樣的正則表達式：

(\b[A-Z][a-z.-]+\b)

然后迭代捕獲組，如此測試使用此正則表達式： (^[AZ][az.-]+$)以確保匹配的組（當前）匹配匹配的組（下一個）。

工作范例：

import re

title = "Announcing Elasticsearch.js For Node.js And The Browser"
matchlist = []
m = re.findall(r"(\b[A-Z][a-z.-]+\b)", title)
i = 1
if m:
    for i in range(len(m)):
        if re.match(r"(^[A-Z][a-z.-]+$)", m[i - 1]) and re.match(r"(^[A-Z][a-z.-]+$)", m[i]):
            matchlist.append([m[i - 1], m[i]])

print matchlist

輸出：

[
    ['Browser', 'Announcing'], 
    ['Announcing', 'Elasticsearch.js'], 
    ['Elasticsearch.js', 'For'], 
    ['For', 'Node.js'], 
    ['Node.js', 'And'], 
    ['And', 'The'], 
    ['The', 'Browser']
]

Answer 3

如果您目前的Python代碼是這樣的話

title="Announcing Elasticsearch.js For Node.js And The Browser"
results = re.findall("[A-Z][a-z]+[\s-][A-Z][a-z.]*", title)

然后你的程序正在跳過奇數對。 一個簡單的解決方案是在跳過第一個單詞后研究模式，如下所示：

m = re.match("[A-Z][a-z]+[\s-]", title)
title_without_first_word = title[m.end():]
results2 = re.findall("[A-Z][a-z]+[\s-][A-Z][a-z.]*", title_without_first_word)

現在只需將結果和result2結合起來。

Python正則表達式：匹配所有連續的大寫單詞

問題描述

3 個解決方案

解決方案1
2 已采納 2013-12-17 21:02:13

解決方案2
0 2013-12-17 20:49:00

解決方案3
0 2013-12-17 21:04:12

Python正則表達式：匹配所有連續的大寫單詞

問題描述

3 個解決方案

解決方案1 2 已采納 2013-12-17 21:02:13

解決方案2 0 2013-12-17 20:49:00

解決方案3 0 2013-12-17 21:04:12

解決方案1
2 已采納 2013-12-17 21:02:13

解決方案2
0 2013-12-17 20:49:00

解決方案3
0 2013-12-17 21:04:12