R提取频率

Question

我正在尝试获取频率，但我的ID正在重复。 这是一个示例数据：

id <- c(1,1,2,2,3,3)
gender <- c("m","m","f","f","m","m")
score <- c(10,5,10,5,10,5)
data <- data.frame("id"=id,"gender"=gender, "score"=score)

> data
  id gender score
1  1      m    10
2  1      m     5
3  2      f    10
4  2      f     5
5  3      m    10
6  3      m     5

我想获得性别类别的频率，但是我重复输入ID。 当我在下面运行此代码时：

gender<-as.data.frame(table(data$gender))
> gender
  Var1 Freq
1    f    2
2    m    4

频率应为女性= 1，男性= 2。 它应如下所示：

> gender
  Var1 Freq
1    f    1
2    m    2

考虑到ID信息，如何获得此信息？

Answer 1

您可以使用data.table::uniqueN来计算每个性别组的唯一ID数量

library(data.table)
setDT(data)

data[, .(Freq = uniqueN(id)), gender]

#    gender Freq
# 1:      m    2
# 2:      f    1

Answer 2

@IceCreamToucan和dplyr的想法：

data %>%
 group_by(gender) %>%
 summarise(freq = n_distinct(id))

  gender  freq
  <fct>  <int>
1 f          1
2 m          2

Answer 3

在基数R中

rowSums(table(data$gender,data$id)!=0)
f m 
1 2

Answer 4

晚会迟到了，我对使用grouping或rowSums()的复杂答案感到惊讶。

在基数R中，我会

通过使用duplicated(id)子集从data.frame中删除重复的id行，
在gender列上应用table() 。

所以，代码是

table(data[duplicated(data$id), "gender"])

 fm 1 2

R提取频率

问题描述

4 个解决方案

解决方案1
2 2019-07-09 20:25:44

解决方案2
2 2019-07-09 20:28:44

解决方案3
1 已采纳 2019-07-09 20:38:14

解决方案4
1 2019-07-12 07:27:27

R提取频率

问题描述

4 个解决方案

解决方案1 2 2019-07-09 20:25:44

解决方案2 2 2019-07-09 20:28:44

解决方案3 1 已采纳 2019-07-09 20:38:14

解决方案4 1 2019-07-12 07:27:27

解决方案1
2 2019-07-09 20:25:44

解决方案2
2 2019-07-09 20:28:44

解决方案3
1 已采纳 2019-07-09 20:38:14

解决方案4
1 2019-07-12 07:27:27