如何使用正則表達式拆分列以將尾隨大寫字母移動到單獨的列中？

Question

我正在嘗試使用正則表達式拆分列，但似乎無法正確拆分。 我正在嘗試將所有尾隨大寫字母移動到單獨的列中。 所以我得到了連續 2-4 個大寫字母的所有大寫字母。 但是，它只留下'Name'列，而'Team'列是空白的。

這是我的代碼：

import pandas as pd

url = "https://www.espn.com/nba/stats/player/_/table/offensive/sort/avgAssists/dir/desc"

df = pd.read_html(url)[0].join(pd.read_html(url)[1])
df[['Name','Team']] = df['Name'].str.split('[A-Z]{2,4}', expand=True)

我要這個：

print(df.head(5).to_string())
   RK             Name POS  GP   MIN   PTS  FGM   FGA   FG%  3PM  3PA   3P%  FTM  FTA   FT%  REB   AST  STL  BLK   TO  DD2  TD3    PER
0   1  LeBron JamesLA  SF  35  35.1  24.9  9.6  19.7  48.6  2.0  6.0  33.8  3.7  5.5  67.7  7.9  11.0  1.3  0.5  3.7   28    9  26.10
1   2   Ricky RubioPHX  PG  30  32.0  13.6  4.9  11.9  41.3  1.2  3.7  31.8  2.6  3.1  83.7  4.6   9.3  1.3  0.2  2.5   12    1  16.40
2   3   Luka DoncicDAL  SF  32  32.8  29.7  9.6  20.2  47.5  3.1  9.4  33.1  7.3  9.1  80.5  9.7   8.9  1.2  0.2  4.2   22   11  31.74
3   4   Ben SimmonsPHIL  PG  36  35.4  14.9  6.1  10.8  56.3  0.1  0.1  40.0  2.7  4.6  59.0  7.5   8.6  2.2  0.7  3.6   19    3  19.49
4   5    Trae YoungATL  PG  34  35.1  28.9  9.3  20.8  44.8  3.5  9.4  37.5  6.7  7.9  85.0  4.3   8.4  1.2  0.1  4.8   11    1  23.47

變成這樣：

print(df.head(5).to_string())
   RK             Name    Team    POS  GP   MIN   PTS  FGM   FGA   FG%  3PM  3PA   3P%  FTM  FTA   FT%  REB   AST  STL  BLK   TO  DD2  TD3    PER
0   1  LeBron James        LA    SF  35  35.1  24.9  9.6  19.7  48.6  2.0  6.0  33.8  3.7  5.5  67.7  7.9  11.0  1.3  0.5  3.7   28    9  26.10
1   2   Ricky Rubio        PHX    PG  30  32.0  13.6  4.9  11.9  41.3  1.2  3.7  31.8  2.6  3.1  83.7  4.6   9.3  1.3  0.2  2.5   12    1  16.40
2   3   Luka Doncic        DAL    SF  32  32.8  29.7  9.6  20.2  47.5  3.1  9.4  33.1  7.3  9.1  80.5  9.7   8.9  1.2  0.2  4.2   22   11  31.74
3   4   Ben Simmons        PHIL    PG  36  35.4  14.9  6.1  10.8  56.3  0.1  0.1  40.0  2.7  4.6  59.0  7.5   8.6  2.2  0.7  3.6   19    3  19.49
4   5    Trae Young        ATL    PG  34  35.1  28.9  9.3  20.8  44.8  3.5  9.4  37.5  6.7  7.9  85.0  4.3   8.4  1.2  0.1  4.8   11    1  23.47

Answer 1

您可以使用^(.*?)([AZ]+)$或^(.*[^AZ])([AZ]+)$等正則表達式將數據提取到兩列中：

df[['Name','Team']] = df['Name'].str.extract('^(.*?)([A-Z]+)$', expand=True)

這將保留所有“名稱”組中不是大寫字母的最后一個字符和“團隊”組中的最后一個大寫字母。

請參閱正則表達式演示 #1和正則表達式演示 #2

細節

^ - 字符串的開始
(.*?) - 捕獲組 1：除換行符以外的任何零個或多個字符，盡可能少
或者
(.*[^AZ]) - 除換行符以外的任何零個或多個字符，盡可能多，直到最后一個不是 ASCII 大寫字母的字符（允許后續模式匹配）（注意，此模式暗示最后一個大寫字母前至少有 1 個字符）
([AZ]+) - 捕獲組 2：一個或多個 ASCII 大寫字母
$ - 字符串的結尾。

Answer 2

我在功能上做了一些改動，您可能需要添加 re 包。

它有點手動，但我希望這足夠了。 祝你有美好的一天！

df_obj_skel = dict()
df_obj_skel['Name'] = list()
df_obj_skel['Team'] = list()
for index,row in df.iterrows():
    Name = row['Name']
    Findings = re.search('[A-Z]{2,4}$', Name)
    Refined_Team = Findings[0]
    Refined_Name = re.sub(Refined_Team + "$", "", Name)
    df_obj_skel['Team'].append(Refined_Team)
    df_obj_skel['Name'].append(Refined_Name)
df_final = pd.DataFrame(df_obj_skel)
print(df_final)

如何使用正則表達式拆分列以將尾隨大寫字母移動到單獨的列中？

問題描述

2 個解決方案

解決方案1
9 已采納 2020-01-07 14:02:32

解決方案2
1 2020-01-07 14:17:24

如何使用正則表達式拆分列以將尾隨大寫字母移動到單獨的列中？

問題描述

2 個解決方案

解決方案1 9 已采納 2020-01-07 14:02:32

解決方案2 1 2020-01-07 14:17:24

解決方案1
9 已采納 2020-01-07 14:02:32

解決方案2
1 2020-01-07 14:17:24