[英]R - pass fixed columns to lapply function in data.table
我有一個包含p1
、 p2
、 ... 列的 data.table ,其中包含百分比。 我想計算給定參考變量val
每列的分位數。 從概念上講,這類似於:
quantile(val, p1, type = 4, na.rm = T)
quantile(val, p2, type = 4, na.rm = T)
...
我使用 data.table 的嘗試如下:
fun <- function(x, y) quantile(y, x, type = 4, na.rm = T)
dt[, c('q1', 'q2') := lapply(.SD, fun), .SDcols = c('p1', 'p2'), by = grp]
where grp is some grouping variable
但是,我無法以固定方式指定y
變量。
我嘗試了以下方法:
fun <- function(x, y, dt) quantile(dt[, y], x, type = 4, na.rm = T)
dt[, c('q1', 'q2') := lapply(.SD, fun, y, dt), .SDcols = c('p1', 'p2'), by = grp]
但是這樣做不會在計算分位數時強制執行分組。 這將計算基於整個范圍的位數y
變量代替y
組內。 這樣做的正確方法是什么?
編輯:
這是一個只有一個變量的簡單示例:
> dt <- data.table(y = 1:10, p1 = rep(seq(0.2, 1, 0.2), 2), g = c(rep('a', 5), rep('b', 5)))
> dt
y p1 g
1: 1 0.2 a
2: 2 0.4 a
3: 3 0.6 a
4: 4 0.8 a
5: 5 1.0 a
6: 6 0.2 b
7: 7 0.4 b
8: 8 0.6 b
9: 9 0.8 b
10: 10 1.0 b
> fun <- function(x, dt, y) quantile(dt[, y], x, type = 4, na.rm = T)
> dt[, c('q1') := lapply(.SD, fun, dt, y), .SDcols = c('p1'), by = c('g')]
> dt
y p1 g q1
1: 1 0.2 a 2
2: 2 0.4 a 4
3: 3 0.6 a 6
4: 4 0.8 a 8
5: 5 1.0 a 10
6: 6 0.2 b 2
7: 7 0.4 b 4
8: 8 0.6 b 6
9: 9 0.8 b 8
10: 10 1.0 b 10
您可以看到 q1 是使用y
的整個范圍計算的。
我發現您將所需的百分比存儲在與您希望計算分位數的數據相同的 data.table 中的想法非常奇怪,但是這里有一種可行的方法
dt <- data.table(x=10:1,y = 1:10, p1 = rep(seq(0.2, 1, 0.2), 2), g = c(rep('a', 5), rep('b', 5)))
dt[, c('qx','qy') := Map(f = quantile, x = list(x, y), prob = list(p1), type = 4), by = g]
您可以在.SD
內使用.SDcols
來選擇您想要的列
dt[, c('qx','qy') := Map(f = quantile, x = .SD[, .SDcols = c('x','y')],
prob = list(p1), type = 4), by = g]
或with =FALSE
dt[, c('qx','qy') := Map(f = quantile, x = .SD[, c('x', 'y')],
prob = list(p1), type = 4), by = g]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.