在Python中使用某些參數拆分列表。使用re.findall

Question

import re

def processFile(filename='Names.txt', encode='utf-8'):
    listOfPlayers = []
    listOfInfo = []
    count = 0
    with open(filename, 'r', encoding = encode) as f:
        for line in f.readlines():
            if count == 0:
                listOfInfo.append(line.strip())
                count += 1
            elif count == 1:
                listOfInfo.append(line.strip())
                listOfPlayers.append(listOfInfo)
                count -= 1
                listOfInfo = []
    return listOfPlayers

def splitStats(listOfPlayers):
    newList = []
    for item in (i[1] for i in listOfPlayers):
        m = re.findall('[A-Z][a-z]*', item)
        newList.append(m)
    print(newList)    

def main():
    lOP = processFile()
    splitStats(lOP)

if __name__ == '__main__':
    main()

我正在嘗試查看足球的一些統計數據，並從網頁上獲取了一些統計數據，並試圖將每個球員的位置，國家/地區，他們從哪里轉移，到哪里轉移以及為他們支付的錢分成多少。

我的Names.txt文件如下所示：

Donyell Malen
AttackerNetherlandsArsenalAjaxUndisclosed
Petr Cech
GoalkeeperCzech Rep.ArsenalChelsea14million
Scott Sinclair
MidfielderEnglandAston VillaManchester City3.4million

我的processFile中的listOfPlayers具有列表列表。 將播放器的索引設為零，其余信息如下：

[['Donyell Malen', 'AttackerNetherlandsArsenalAjaxUndisclosed'], ['Petr Cech', 'GoalkeeperCzech Rep.ArsenalChelsea14million'], ['Scott Sinclair', 'MidfielderEnglandAston VillaManchester City3.4million'],

我試圖解析每個項目和1索引以將其拆分。 我找到了re.findall（）方法，但是已經搜索了一個小時的API，但仍然不清楚如何將其與大寫字母分開（盡管有這樣做的代碼），我需要保留兩個單詞一串之間的空格。 即“阿斯頓維拉別墅”應該放在一起，以及如何保留那里的費用，即“ 340萬”等於340萬。

我知道這是一個很長的問題，但是我想給出一個很好的概述，只是看看我是不是做錯了所有事情，或者我是否處在正確的軌道上，並且只需要re.findall（）幫助。 謝謝！

Answer 1

您可以使用以下模式

"(?:[A-Z]|[0-9]+(?:.[0-9]+)?)[a-z]*(?: [A-Z][a-z]*)*"

它非常復雜，因為它基本上可以處理所有特殊情況，如果您對如何編寫這樣的表達式感興趣，則應該深入閱讀re模塊的文檔。https://docs.python.org/2/library/re.html

Answer 2

我認為您要研究的是正則表達式中的否定（和/或肯定）“向后看”。 我在想這樣的事情：

([A-Z][a-z]*)((?<!\s)[A-Z][a-z\s]*(?<=\s)[A-Z][a-z]*)*

但是，我在regex上很糟糕，只能從視覺上看到這很草率，所以我期待有人糾正我：)無論如何，雖然我確信可以做得更好，但是

(?<!\s)

表示在任何時候前身都不是空格字符的后視。

(?<=\s)

表示在任何時候前一個字符都是空格字符的后向。

我去了https://regex101.com/並使用了我在頂部為正則表達式提供的正則表達式，以及以下行：

MidfielderEnglandAston VillaManchester City3.4million

作為要匹配的文本，它看起來很有希望。.我沒有解決您需要考慮存在的'340萬'屬性的數字的任何問題，但希望這可能對您有所幫助，我可以不要再花時間在：/

祝你好運！ regex超級有趣且功能強大，我希望我能了解更多！

在Python中使用某些參數拆分列表。使用re.findall

問題描述

2 個解決方案

解決方案1
1 已采納 2015-10-31 02:12:31

解決方案2
0 2015-10-31 02:28:01

在Python中使用某些參數拆分列表。 使用re.findall

問題描述

2 個解決方案

解決方案1 1 已采納 2015-10-31 02:12:31

解決方案2 0 2015-10-31 02:28:01

在Python中使用某些參數拆分列表。使用re.findall

解決方案1
1 已采納 2015-10-31 02:12:31

解決方案2
0 2015-10-31 02:28:01