[英]Grouping and/or Counting in R
我正在尝试“重新计数” R中的列,并通过清理数据而出现问题。 我正在按位置清理数据,并且一旦将CA更改为加利福尼亚。
all_location <- read.csv("all_location.csv", stringsAsFactors = FALSE)
all_location <- count(all_location, location)
all_location <- all_location[with(all_location, order(-n)), ]
all_location
A tibble: 100 x 2
location n
<chr> <int>
1 CA 3216
2 Alaska 2985
3 Nevada 949
4 Washington 253
5 Hawaii 239
6 Montana 218
7 Puerto Rico 149
8 California 126
9 Utah 83
10 NA 72
从上面可以看到CA和加利福尼亚。 下面,我能够清理grep并将CA替换为California。 但是,我的问题是,它是按加利福尼亚分组的,但显示了两个单独的加利福尼亚实例。
ca1 <- grep("CA",all_location$location)
all_location$location <- replace(all_location$location,ca1,"California")
all_location
A tibble: 100 x 2
location n
<chr> <int>
1 California 3216
2 Alaska 2985
3 Nevada 949
4 Washington 253
5 Hawaii 239
6 Montana 218
7 Puerto Rico 149
8 California 126
9 Utah 83
10 NA 72
我的目标是将两者合计为n以下的总数。
all_location$location[substr(all_location$location, 1, 5) %in% "Calif" ] <- "California"
确保以“ Calif”开头的所有内容都被编入“ California”
我假设您可能已经在加利福尼亚州拥有一个空间(例如"California "
),这就是这种情况发生的原因。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.