繁体   English   中英

我如何选择具有子集的数据点数量分布的前 25% 中具有点数量的国家

[英]How i can i choose the countries that have number of points in the top 25% of the distribution of number of datapoints with subset

我必须使用带有 %in% 运算符的函数子集和分位数来选择在数据点数量分布的前 25% 中具有多个点的国家/地区。

我的数据集有这些形式

head(drugs1)
  LOCATION TIME PC_HEALTHXP PC_GDP USD_CAP TOTAL_SPEND
1      AUS 1971      15.992  0.727  35.720      462.11
2      AUS 1972      15.091  0.686  36.056      475.11
3      AUS 1973      15.117  0.681  39.871      533.47
4      AUS 1974      14.771  0.755  47.559      652.65
5      AUS 1975      11.849  0.682  47.561      660.76
6      AUS 1976      10.920  0.630  46.908      658.26

其中第一列代表国家,第二列代表每个国家每年出现的数据点。

我尝试应用命令 a<-subset(drugs1, quantile(drugs1$TIME, 0.25),1) 但结果为 NULL。 你能帮我解决这个问题吗?

首先使用table()计算每个国家/地区的数据点数量。

n <- table(drugs1$location)

找到数据点数量的第 25 个百分位数。

q <- quantile(n, .25)

查找拥有超过q个数据点的国家/地区。

countries <- names(n)[n > q]

子集原始数据以仅包括国家/地区中的countries

drugs2 <- subset(drugs1, LOCATION %in% countries)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM