簡體   English   中英

在Python中使用某些參數拆分列表。 使用re.findall

[英]Splitting a list with certain parameters in Python. Using re.findall

import re

def processFile(filename='Names.txt', encode='utf-8'):
    listOfPlayers = []
    listOfInfo = []
    count = 0
    with open(filename, 'r', encoding = encode) as f:
        for line in f.readlines():
            if count == 0:
                listOfInfo.append(line.strip())
                count += 1
            elif count == 1:
                listOfInfo.append(line.strip())
                listOfPlayers.append(listOfInfo)
                count -= 1
                listOfInfo = []
    return listOfPlayers

def splitStats(listOfPlayers):
    newList = []
    for item in (i[1] for i in listOfPlayers):
        m = re.findall('[A-Z][a-z]*', item)
        newList.append(m)
    print(newList)    

def main():
    lOP = processFile()
    splitStats(lOP)

if __name__ == '__main__':
    main()

我正在嘗試查看足球的一些統計數據,並從網頁上獲取了一些統計數據,並試圖將每個球員的位置,國家/地區,他們從哪里轉移,到哪里轉移以及為他們支付的錢分成多少。

我的Names.txt文件如下所示:

Donyell Malen
AttackerNetherlandsArsenalAjaxUndisclosed
Petr Cech
GoalkeeperCzech Rep.ArsenalChelsea14million
Scott Sinclair
MidfielderEnglandAston VillaManchester City3.4million

我的processFile中的listOfPlayers具有列表列表。 將播放器的索引設為零,其余信息如下:

[['Donyell Malen', 'AttackerNetherlandsArsenalAjaxUndisclosed'], ['Petr Cech', 'GoalkeeperCzech Rep.ArsenalChelsea14million'], ['Scott Sinclair', 'MidfielderEnglandAston VillaManchester City3.4million'],

我試圖解析每個項目和1索引以將其拆分。 我找到了re.findall()方法,但是已經搜索了一個小時的API,但仍然不清楚如何將其與大寫字母分開(盡管有這樣做的代碼),我需要保留兩個單詞一串之間的空格。 即“阿斯頓維拉別墅”應該放在一起,以及如何保留那里的費用,即“ 340萬”等於340萬。

我知道這是一個很長的問題,但是我想給出一個很好的概述,只是看看我是不是做錯了所有事情,或者我是否處在正確的軌道上,並且只需要re.findall()幫助。 謝謝!

您可以使用以下模式

"(?:[A-Z]|[0-9]+(?:.[0-9]+)?)[a-z]*(?: [A-Z][a-z]*)*"

它非常復雜,因為它基本上可以處理所有特殊情況,如果您對如何編寫這樣的表達式感興趣,則應該深入閱讀re模塊的文檔。https://docs.python.org/2/library/re.html

我認為您要研究的是正則表達式中的否定(和/或肯定)“向后看”。 我在想這樣的事情:

([A-Z][a-z]*)((?<!\s)[A-Z][a-z\s]*(?<=\s)[A-Z][a-z]*)*

但是,我在regex上很糟糕,只能從視覺上看到這很草率,所以我期待有人糾正我:)無論如何,雖然我確信可以做得更好,但是

(?<!\s)

表示在任何時候前身都不是空格字符的后視。

(?<=\s)

表示在任何時候前一個字符都是空格字符的后向。

我去了https://regex101.com/並使用了我在頂部為正則表達式提供的正則表達式,以及以下行:

MidfielderEnglandAston VillaManchester City3.4million

作為要匹配的文本,它看起來很有希望。.我沒有解決您需要考慮存在的'340萬'屬性的數字的任何問題,但希望這可能對您有所幫助,我可以不要再花時間在:/

祝你好運! regex超級有趣且功能強大,我希望我能了解更多!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM