[英]Using data.table to calculate new columns
我有以下數據
set.seed(5)
dt <- data.table(ID=letters, x = rnorm(26), y = rnorm(26), z = c(rep(15, 13), rep(20,13)))
返回,
ID x y z
1: a -0.84085548 1.41858907 15
2: b 1.38435934 1.49877383 15
3: c -1.25549186 -0.65708209 15
4: d 0.07014277 -0.85279544 15
5: e 1.71144087 0.31591504 15
6: f -0.60290798 1.10969417 15
7: g -0.47216639 2.21546057 15
8: h -0.63537131 1.21710364 15
9: i -0.28577363 1.47922179 15
10: j 0.13810822 0.95157383 15
11: k 1.22763034 -1.00953265 15
12: l -0.80177945 -2.00047274 15
13: m -1.08039260 -1.76218587 15
14: n -0.15753436 -0.14260813 20
15: o -1.07176004 1.55006037 20
16: p -0.13898614 -0.80242318 20
17: q -0.59731309 -0.07457892 20
18: r -2.18396676 1.89566795 20
19: s 0.24081726 -0.45656894 20
20: t -0.25935541 0.56222336 20
21: u 0.90051195 -0.88700851 20
22: v 0.94186939 -0.46024458 20
23: w 1.46796190 -0.72432849 20
24: x 0.70676109 -0.06921116 20
25: y 0.81900893 1.46324856 20
26: z -0.29348185 0.18772610 20
我試圖通過用z
除以兩者來更新列x
和y
,同時保留列ID
。 也就是說,最終輸出應包含列ID
, x/z
和y/z
我嘗試了以下代碼,但它返回錯誤
dt[,c('x', 'y'):=lapply(.SD, function(x) x/z), .SDcols = names(dt)]
僅供參考,實際數據中有超過100列必須按列z
划分。
你能給我一些建議嗎?
更新:問題#495現在通過最近的提交解決了,我們現在可以做到這一點:
require(data.table) # v1.9.7+
nam <- setdiff(names(dt), c("ID", "z"))
dt[, (nam) := lapply(.SD, `/`, z), .SDcols = nam]
nam <- setdiff(names(dt), c("ID", "z"))
dt[, (nam) := lapply(.SD, `/`, dt[,z]), .SDcols = nam]
請注意,由於這個data.table
錯誤#495 ,我在lapply
里面使用了dt[, z]
。
如果使用.SDcols
,則不能在函數調用中使用其他列。
作為一種解決方法,在#495完成之前,您可以使用mget()
,如下所示:
dt[, (nam) := lapply(mget(nam), `/`, z)]
怎么樣
dt[, `:=`(x=x/z, y=y/z, z=NULL)]
編輯:在原始問題的補充之后,數據表中有兩列以上我將使用Floo0的答案
這不行嗎?
dt$x <- dt$x / dt$z
dt$y <- dt$y / dt$z
dt <- dt[ , seq(1, 3)]
編輯:如果你有很多列,你必須除以z,你可以嘗試這樣做:
dt[, seq(2, 101)] <- sapply(dt[, seq(2, 101)], '/', dt$z)
dt <- dt[, seq(1, 101)] #replace with boundaries of your choosing
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.