R中有多个重复（2次，3次，......）

Question

After searching for a while, I know that this question has not been answered yet. 经过一段时间的搜索，我知道这个问题还没有得到解答。 Assume that I have the following vector 假设我有以下向量

v <- c("a", "b", "b", "c","c","c", "d", "d", "d", "d")

How do I find those values having more than 1 duplicates 如何找到重复次数超过1的值

(should be "c","c","c", "d", "d", "d", "d") （应为"c","c","c", "d", "d", "d", "d")

and more than 2 duplicates 超过2个重复

(should be "d", "d", "d", "d" ) （应为"d", "d", "d", "d" ）

Function duplicated(v) only returns values having duplicates. 函数duplicated(v)仅返回具有重复的值。

Answer 1

You can generate a table() and then check which elements of v are part of the relevant subset of the table, eg 您可以生成一个table() ，然后检查v哪些元素是表的相关子集的一部分，例如

R> v <- c("a", "b", "b", "c","c","c", "d", "d", "d", "d")
R> tab <- table(v)
R> tab
v
a b c d 
1 2 3 4 
R> v[v %in% names(tab[tab > 2])]
[1] "c" "c" "c" "d" "d" "d" "d"
R> v[v %in% names(tab[tab > 3])]
[1] "d" "d" "d" "d"

Answer 2

I would use ave to write a simple function like this: 我会用ave写一个这样的简单函数：

myFun <- function(vector, thresh) {
  ind <- ave(rep(1, length(vector)), vector, FUN = length)
  vector[ind > thresh + 1] ## added "+1" to match your terminology
}

Here it is applied to "v": 这里它适用于“v”：

myFun(v, 1)
# [1] "c" "c" "c" "d" "d" "d" "d"
myFun(v, 2)
# [1] "d" "d" "d" "d"

Of course, there is always "data.table": 当然，总有“data.table”：

as.data.table(v)[, N := .N, by = v][N > 1 + 1]$v
# [1] "c" "c" "c" "d" "d" "d" "d"
as.data.table(v)[, N := .N, by = v][N > 2 + 1]$v
# [1] "d" "d" "d" "d"

R中有多个重复（2次，3次，......）

问题描述

2 个解决方案

解决方案1
7 2015-04-30 16:33:29

解决方案2
5 已采纳 2015-04-30 16:35:38

R中有多个重复（2次，3次，......）

问题描述

2 个解决方案

解决方案1 7 2015-04-30 16:33:29

解决方案2 5 已采纳 2015-04-30 16:35:38

解决方案1
7 2015-04-30 16:33:29

解决方案2
5 已采纳 2015-04-30 16:35:38