[英]How i can i choose the countries that have number of points in the top 25% of the distribution of number of datapoints with subset
我必须使用带有 %in% 运算符的函数子集和分位数来选择在数据点数量分布的前 25% 中具有多个点的国家/地区。
我的数据集有这些形式
head(drugs1)
LOCATION TIME PC_HEALTHXP PC_GDP USD_CAP TOTAL_SPEND
1 AUS 1971 15.992 0.727 35.720 462.11
2 AUS 1972 15.091 0.686 36.056 475.11
3 AUS 1973 15.117 0.681 39.871 533.47
4 AUS 1974 14.771 0.755 47.559 652.65
5 AUS 1975 11.849 0.682 47.561 660.76
6 AUS 1976 10.920 0.630 46.908 658.26
其中第一列代表国家,第二列代表每个国家每年出现的数据点。
我尝试应用命令 a<-subset(drugs1, quantile(drugs1$TIME, 0.25),1) 但结果为 NULL。 你能帮我解决这个问题吗?
首先使用table()
计算每个国家/地区的数据点数量。
n <- table(drugs1$location)
找到数据点数量的第 25 个百分位数。
q <- quantile(n, .25)
查找拥有超过q
个数据点的国家/地区。
countries <- names(n)[n > q]
子集原始数据以仅包括国家/地区中的countries
。
drugs2 <- subset(drugs1, LOCATION %in% countries)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.