我如何选择具有子集的数据点数量分布的前 25% 中具有点数量的国家

Question

我必须使用带有 %in% 运算符的函数子集和分位数来选择在数据点数量分布的前 25% 中具有多个点的国家/地区。

我的数据集有这些形式

head(drugs1)
  LOCATION TIME PC_HEALTHXP PC_GDP USD_CAP TOTAL_SPEND
1      AUS 1971      15.992  0.727  35.720      462.11
2      AUS 1972      15.091  0.686  36.056      475.11
3      AUS 1973      15.117  0.681  39.871      533.47
4      AUS 1974      14.771  0.755  47.559      652.65
5      AUS 1975      11.849  0.682  47.561      660.76
6      AUS 1976      10.920  0.630  46.908      658.26

其中第一列代表国家，第二列代表每个国家每年出现的数据点。

我尝试应用命令 a<-subset(drugs1, quantile(drugs1$TIME, 0.25),1) 但结果为 NULL。 你能帮我解决这个问题吗？

Answer 1

首先使用table()计算每个国家/地区的数据点数量。

n <- table(drugs1$location)

找到数据点数量的第 25 个百分位数。

q <- quantile(n, .25)

查找拥有超过q个数据点的国家/地区。

countries <- names(n)[n > q]

子集原始数据以仅包括国家/地区中的countries 。

drugs2 <- subset(drugs1, LOCATION %in% countries)

我如何选择具有子集的数据点数量分布的前 25% 中具有点数量的国家

问题描述

1 个解决方案

解决方案1
0 2021-11-02 14:08:33

我如何选择具有子集的数据点数量分布的前 25% 中具有点数量的国家

问题描述

1 个解决方案

解决方案1 0 2021-11-02 14:08:33

解决方案1
0 2021-11-02 14:08:33