使用正則表達式提取具有特定字符串的列名

Question

我有一個 dataframe 如下：（示例如下所示。它具有超過 10000 列的類似形式）

   df 
        
    CONT  RF GHT AT@RT@NAS@VRT=Y ON@RV@NAS@VTP=Y  QR@RZ@RG@NVR@VPQ=N  QR@RZ@RG@NAS@VVV=N
     1    3   4     5                 7                11                 12
     10   2   5     9                 6                11                 16

所以我想要做的是提取列'CONT'，'RF'和模式'@NAS'的所有列

所以我的 output dataframe （在示例中應該是這樣的）：

 df_out 
        
    CONT  RF AT@RT@NAS@VRT=Y ON@RV@NAS@VTP=Y  QR@RZ@RG@NAS@VVV=N 
     1    3       5                 7                11                 
     10   2       9                 6                11

我嘗試了以下方法，但它沒有提取帶有“@NAS”的列

   selCols = ["CONT", "RF",  "@NAS*"]
   cols = df.columns
   msk_pt = '|'.join(selCols)
   req = re.compile(msk_pt)

   newCols = [line for line in cols if req.match(line)] 

   df_out = df[newCols]

任何幫助將不勝感激。 謝謝

Answer 1

您可以將df.filter與pd.concat一起使用：

In [2635]: res = pd.concat([df[['CONT', 'RF']], df.filter(like='@NAS')], axis=1)

In [2636]: res
Out[2636]: 
   CONT  RF  AT@RT@NAS@VRT=Y  ON@RV@NAS@VTP=Y  QR@RZ@RG@NAS@VVV=N
0     1   3                5                7                  12
1    10   2                9                6                  16

Answer 2

我們可以使用str.contains中的df.columns方法來應用正則表達式。

cond = df.columns.str.contains('CONT|RF|@NAS')
df[df.columns[cond]]

Answer 3

嘗試使用[...]選擇isin和str.contains ：

df_out = df[df.columns[df.columns.isin(['CONT', 'RF']) | df.columns.str.contains('@NAS')]]
print(df_out)

Output：

   CONT  RF  AT@RT@NAS@VRT=Y  ON@RV@NAS@VTP=Y  QR@RZ@RG@NAS@VVV=N
0     1   3                5                7                  12
1    10   2                9                6                  16

Answer 4

將列表推導與re.search一起使用：

pattern = r'^(?:CONT|RF|.*@NAS.*)$'
cols = df.columns
newCols = [c for c in cols if re.search(pattern, c)]
df_out = df[newCols]

Answer 5

你差不多完成了，我會做一點改變：

   import re

   COLUMNS_REGEX = "CONT|RF|@NAS"
   cols = df.columns
   newCols = [col for col in cols if re.search(COLUMNS_REGEX, col)]
   df_out = df[newCols]

使用正則表達式提取具有特定字符串的列名

問題描述

5 個解決方案

解決方案1
4 2020-12-29 04:24:53

解決方案2
4 2020-12-29 05:25:54

解決方案3
3 2020-12-29 04:11:59

解決方案4
3 2020-12-29 04:12:36

解決方案5
3 2020-12-29 04:15:16

使用正則表達式提取具有特定字符串的列名

問題描述

5 個解決方案

解決方案1 4 2020-12-29 04:24:53

解決方案2 4 2020-12-29 05:25:54

解決方案3 3 2020-12-29 04:11:59

解決方案4 3 2020-12-29 04:12:36

解決方案5 3 2020-12-29 04:15:16

解決方案1
4 2020-12-29 04:24:53

解決方案2
4 2020-12-29 05:25:54

解決方案3
3 2020-12-29 04:11:59

解決方案4
3 2020-12-29 04:12:36

解決方案5
3 2020-12-29 04:15:16