如何使用正則表達式匹配按列對Pandas數據進行分組

Question

我有以下數據框：

import pandas as pd
df = pd.DataFrame({'id':['a','b','c','d','e'],
                   'XX_111_S5_R12_001_Mobile_05':[-14,-90,-90,-96,-91],
                   'YY_222_S00_R12_001_1-999_13':[-103,0,-110,-114,-114],
                   'ZZ_111_S00_R12_001_1-999_13':[1,2.3,3,5,6],
})

df.set_index('id',inplace=True)
df

看起來像這樣：

Out[6]:
    XX_111_S5_R12_001_Mobile_05  YY_222_S00_R12_001_1-999_13  ZZ_111_S00_R12_001_1-999_13
id
a                           -14                         -103                          1.0
b                           -90                            0                          2.3
c                           -90                         -110                          3.0
d                           -96                         -114                          5.0
e                           -91                         -114                          6.0

我想要做的是根據以下正則表達式對列進行分組：

\w+_\w+_\w+_\d+_([\w\d-]+)_\d+

所以最終它被Mobile和1-999分組。

有什么辦法呢。 我嘗試了這個，但未能將它們分組：

import re
grouped = df.groupby(lambda x: re.search("\w+_\w+_\w+_\d+_([\w\d-]+)_\d+", x).group(), axis=1)
for name, group in grouped:
    print name
    print group

哪個印刷品：

XX_111_S5_R12_001_Mobile_05
YY_222_S00_R12_001_1-999_13
ZZ_111_S00_R12_001_1-999_13

我們想要的是name打印到：

Mobile
1-999
1-999

並且group打印相應的數據框。

Answer 1

您可以在列上使用.str.extract ，以便為您的groupby 提取子字符串：

# Performing the groupby.
pat = '\w+_\w+_\w+_\d+_([\w\d-]+)_\d+'
grouped = df.groupby(df.columns.str.extract(pat, expand=False), axis=1)

# Showing group information.
for name, group in grouped:
    print name
    print group, '\n'

返回預期的組：

1-999
    YY_222_S00_R12_001_1-999_13  ZZ_111_S00_R12_001_1-999_13
id                                                          
a                          -103                          1.0
b                             0                          2.3
c                          -110                          3.0
d                          -114                          5.0
e                          -114                          6.0 

Mobile
    XX_111_S5_R12_001_Mobile_05
id                             
a                           -14
b                           -90
c                           -90
d                           -96
e                           -91

Answer 2

分組后，將新數據幀的索引設置為[re.findall(r'\\w+_\\w+_\\w+_\\d+_([\\w\\d-]+)_\\d+', col)[0] for col in df.columns] （ ['Mobile', '1-999', '1-999'] ）。

Answer 3

你的正則表達式有一些問題， \\w匹配包含下划線的單詞字符，這看起來不像你想要的，如果你只想匹配字母和數字，使用A-Za-z0-9-會更好：

df.groupby(df.columns.str.extract("([A-Za-z0-9-]+)_\d+$"), axis=1).sum()

如何使用正則表達式匹配按列對Pandas數據進行分組

問題描述

3 個解決方案

解決方案1
6 已采納 2017-03-27 02:08:30

解決方案2
1 2017-03-27 01:48:30

解決方案3
1 2017-03-27 02:10:35

如何使用正則表達式匹配按列對Pandas數據進行分組

問題描述

3 個解決方案

解決方案1 6 已采納 2017-03-27 02:08:30

解決方案2 1 2017-03-27 01:48:30

解決方案3 1 2017-03-27 02:10:35

解決方案1
6 已采納 2017-03-27 02:08:30

解決方案2
1 2017-03-27 01:48:30

解決方案3
1 2017-03-27 02:10:35