繁体   English   中英

使用 tidyr 和 regex 创建两列

[英]Using tidyr and regex to create two columns

我想将包含代码和地名的一列数据分成两个单独的列。 我尝试使用tidyr的单独命令,但在使用正则表达式时遇到了一些困难(我之前没有使用过它们,无法弄清楚我做错了什么/正则表达式是如何工作的)。

数据在格式方面非常一致。 大多数观察以代码开头,然后是位置。 偶尔有一个观察结果只是一个位置(没有代码)。 以下是数据示例:

df <- read.table(text = c("
obs  name
1    01-220 location 1
2    05-23 town 3
3    District 2"), header = T)

我使用以下代码:

df <- df %>% separate(name, into = c("location_code", "location_name"), sep = "([0-9] [A-z])")    

结果(注意 location_code 中的最后一个数字和 location_name 中的第一个字母丢失):

obs   location_code    location_name
1     01-22           ocation 1
2     05-2            own 3
3     District 2       NA

我想要的输出是:

# obs   location_code    location_name
# 1     01-220           location 1
# 2     05-23            town 3
# 3     NA               District 2

提前致谢!

我们可以使用正则表达式环视来指定sep

separate(df, name, into = c("location_code", "location_time"),
                                  "(?<=([0-9] )|\\b)(?=[A-Za-z])")
#   obs location_code location_time
#1   1       01-220     location 1
#2   2        05-23         town 3
#3   3                  District 2

extract

extract(df, name, into = c("location_code", "location_time"), "([0-9-]*)\\s*(.*)")
#  obs location_code location_time
#1   1        01-220    location 1
#2   2         05-23        town 3
#3   3                  District 2

数据

df <- structure(list(obs = 1:3, name = c("01-220 location 1", "05-23 town 3", 
 "District 2")), .Names = c("obs", "name"), class = "data.frame", row.names = c(NA, 
 -3L))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM