使用正则表达式或R中的子字符串提取特定单词

Question

我有以下数据：

    Opex_Spend_Month    Opex_Spend_YTD  Major_Category  NBS_Region  Sub_Category
92179.84            113542.84       Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER
297.82              82392.82        Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER
13974.8             34917.8         Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER
138.6               63125.6         Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER
NA                  73097           Contingent Labour   EUROPE  TEMP:MSP NON IT
NA                  96035           Contingent Labour   EUROPE  TEMP:MSP NON IT
1388.65             68934.65        Contingent Labour   EUROPE  TEMP:MSP NON IT
5393.76             18748.76        Contingent Labour   EUROPE  TEMP:MSP IT
528.38              82195.38        Contingent Labour   EUROPE  TEMP:MSP IT
22369               95468           Contingent Labour   EUROPE  TEMP:MSP IT

我想从Sub_Category列中选择Cont Worker，Non IT和IT的最后部分，而且我不确定要使用哪个正则表达式或子字符串函数。

期望的输出

Opex_Spend_Month    Opex_Spend_YTD  Major_Category  NBS_Region  Sub_Category            Category
92179.84            113542.84       Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER    Cont Worker
297.82              82392.82        Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER    Cont Worker
13974.8             34917.8         Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER    Cont Worker
138.6               63125.6         Contingent Labour   EUROPE  TEMP:OTH.CONT.WORKER    Cont Worker
NA                  73097           Contingent Labour   EUROPE  TEMP:MSP NON IT         Non IT
NA                  96035           Contingent Labour   EUROPE  TEMP:MSP NON IT         Non IT
1388.65             68934.65        Contingent Labour   EUROPE  TEMP:MSP NON IT         Non IT
5393.76             18748.76        Contingent Labour   EUROPE  TEMP:MSP IT             IT
528.38              82195.38        Contingent Labour   EUROPE  TEMP:MSP IT             IT
22369               95468           Contingent Labour   EUROPE  TEMP:MSP IT             IT

有人可以帮我吗？

Answer 1

我们可以使用str_extract

library(stringr)
str_extract(df1$Sub_Category, "(CONT\\.WORKER|NON IT|IT)$")

Answer 2

You can do:

 gsub(".*?(\\.|\\s)(\\w+)","\\2 ",dat$Sub_Category)

这是一个示例：只需调用最后两列（5：6），您就会看到发生了什么：

transform(dat,category=gsub(".*?(\\.|\\s)(\\w+)","\\2 ",Sub_Category))[5:6]
           Sub_Category     category
1  TEMP:OTH.CONT.WORKER CONT WORKER 
2  TEMP:OTH.CONT.WORKER CONT WORKER 
3  TEMP:OTH.CONT.WORKER CONT WORKER 
4  TEMP:OTH.CONT.WORKER CONT WORKER 
5       TEMP:MSP NON IT      NON IT 
6       TEMP:MSP NON IT      NON IT 
7       TEMP:MSP NON IT      NON IT 
8           TEMP:MSP IT          IT 
9           TEMP:MSP IT          IT 
10          TEMP:MSP IT          IT

Answer 3

在Base R中：

df$Category = trimws(gsub('([A-Z]+:[A-Z]+|\\.)', ' ', df$Sub_Category))

使用正则表达式或R中的子字符串提取特定单词

问题描述

3 个解决方案

解决方案1
1 2018-05-02 14:48:44

解决方案2
1 已采纳 2018-05-02 15:42:49

解决方案3
0 2018-05-02 15:20:44

使用正则表达式或R中的子字符串提取特定单词

问题描述

3 个解决方案

解决方案1 1 2018-05-02 14:48:44

解决方案2 1 已采纳 2018-05-02 15:42:49

解决方案3 0 2018-05-02 15:20:44

解决方案1
1 2018-05-02 14:48:44

解决方案2
1 已采纳 2018-05-02 15:42:49

解决方案3
0 2018-05-02 15:20:44