R 中特定字符串在整個時間內出現的百分比

Question

我有一個這樣的數據庫：

Individual      Year     ID
A                1       R
A                1       S
A                1       T
A                2       T
B                1       T
B                5       T
C                7       S
D                9       K
D                8       H
E                1       S

數據庫中有成千上萬的人。

每個人每年都沒有、一個或多個 ID 相關聯（例如，個人 A 在第 1 年有 3 個不同的 ID，而個人 D 在第 10 年只有一個 ID，沒有其他信息）

我試圖研究 ID "S" 這些年來的演變並繪制一個折線圖，其中：
x 軸包含年份
y 軸百分比（#ID S/ # 所有個人的年度 ID 總數）

在這個例子中，我的輸出應該是：

Year       Percentage of S
1           0,5
2           0
5           0
7           1
8           0
9           0

第一年的值是通過將 3（第 1 年的 ID S 總數）除以 6（第 1 年注冊的 ID 總數）獲得的。

謝謝

Answer 1

你可以用

library(dplyr)

df %>% 
  group_by(Year) %>% 
  summarise(perc_of_s = sum(ID == "S") / n())

這返回

# A tibble: 6 x 2
   Year perc_of_s
  <dbl>     <dbl>
1     1       0.4
2     2       0  
3     5       0  
4     7       1  
5     8       0  
6     9       0

第 1 年只有五個 ID，其中兩個是S ，因此百分比為0.4 。

R 中特定字符串在整個時間內出現的百分比

問題描述

1 個解決方案

解決方案1
0 2021-11-02 23:18:21

R 中特定字符串在整個時間內出現的百分比

問題描述

1 個解決方案

解決方案1 0 2021-11-02 23:18:21

解決方案1
0 2021-11-02 23:18:21