![](/img/trans.png)
[英]Repeating sets of rows according to the number of rows by column in R with data.table
[英]R: data.table compare sets of rows
我正在使用data.tables在R中工作。 我有以下data.table編碼一組坐標為A,B,C,D的點,以及索引編碼一組該點所屬的點。
library(data.table)
A B C D set
1: 0 0 0 0 1
2: 1 0 1 0 2
3: 1 1 1 0 2
4: 0 1 0 0 2
5: 1 0 1 1 2
6: 0 1 0 0 3
7: 1 1 0 0 3
8: 0 0 1 0 4
9: 1 0 1 0 4
10: 0 1 0 1 4
11: 0 0 0 0 5
12: 1 0 0 0 5
13: 1 1 1 0 5
14: 1 1 1 1 5
dt = setDT(structure(list(A = c(0L, 1L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L,
0L, 1L, 1L, 1L), B = c(0L, 0L, 1L, 1L, 0L, 1L, 1L, 0L, 0L, 1L,
0L, 0L, 1L, 1L), C = c(0L, 1L, 1L, 0L, 1L, 0L, 0L, 1L, 1L, 0L,
0L, 0L, 1L, 1L), D = c(0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 1L,
0L, 0L, 0L, 1L), set = c(1L, 2L, 2L, 2L, 2L, 3L, 3L, 4L, 4L,
4L, 5L, 5L, 5L, 5L)), .Names = c("A", "B", "C", "D", "set"), row.names = c(NA,
-14L), class = "data.frame"))
我有另一個表編碼,例如每個集合的概率。
set mass
1: 1 0.27809187
2: 2 0.02614841
3: 3 0.36890459
4: 4 0.28975265
5: 5 0.03710247
wt = setDT(structure(list(set = 1:5, mass = c(0.27809187, 0.02614841, 0.36890459,
0.28975265, 0.03710247)), .Names = c("set", "mass"), row.names = c(NA,
-5L), class = "data.frame"))
我想要一個程序來創建子空間(例如C,D)的投影。 (請注意,在這種情況下,原始點1,4,6,7,11,12是重合的,集合1和3在此子空間中以及集合2和5中是相同的。
unique(dt[,c("C","D", "set")])
> C D set
1: 0 0 1
2: 1 0 2
3: 0 0 2
4: 1 1 2
5: 0 0 3
6: 1 0 4
7: 0 1 4
8: 0 0 5
9: 1 0 5
10: 1 1 5
並確定相同的集合,僅保留唯一的集合並求和相應的質量。 即在這種情況下:
> C D set
1: 0 0 1
2: 1 0 2
3: 0 0 2
4: 1 1 2
5: 1 0 4
6: 0 1 4
set mass
1: 1 0.6469965 % set 1 + set 3
2: 2 0.06325088 % set 2 + set 5
3: 4 0.36890459
感謝您的想法。
一個比較笨拙的選項:為每個集合創建一個唯一的字符串,然后在其上分組。
coords = c("C", "D")
gDT = setorder(unique(dt[,c(coords, "set"), with=FALSE]))[,
.(s = paste(do.call(paste, c(.SD, .(sep="_"))), collapse="."))
, by=set, .SDcols = coords][,
g := .GRP
, by=s][]
# set s g
# 1: 1 0_0 1
# 2: 2 0_0.1_0.1_1 2
# 3: 3 0_0 1
# 4: 5 0_0.1_0.1_1 2
# 5: 4 0_1.1_0 3
gDT[wt, on=.(set), mass := i.mass ]
gDT[, .(set = first(set), mass = sum(mass)), by=g]
# g set mass
# 1: 1 1 0.64699646
# 2: 2 2 0.06325088
# 3: 3 4 0.28975265
評論
您可以通過在最后一行中的[, g := NULL][]
上鏈接來擺脫g
。
setorder
只是對數據進行排序,以便唯一字符串在相同的集合集中顯示相同。
可以對分組的first
和sum
運算進行優化,如您所見,是否將verbose = TRUE
添加到最后一行,例如gDT[, .(set = first(set), mass = sum(mass)), by=g, verbose=TRUE]
。
在概念上與Frank相似,我們可以將每個集合的二進制值映射到x * 2 ^ ((length(x) - 1):0)
的十進制數。 同樣,對於“ C”和“ D”子集,我們得到:
coords = c("C", "D")
d = data.frame(set = dt$set,
val = Reduce("+", Map("*", list(dt$C, dt$D), 2 ^ ((length(coords) - 1):0))))
d
然后,我們可以按照相同的想法將相同的集合分組:
tab = table(d$val, d$set) > 0L ## `table(d) > 0` to ignore the duplicates
gr = colSums(tab * (2 ^ ((nrow(tab) - 1):0)))
gr
# 1 2 3 4 5
# 8 11 8 6 11
## another (pre-edit) alternative with unnecessary overhead
#gr = cutree(hclust(dist(table(d) > 0L)), h = 0)
#gr
#1 2 3 4 5
#1 2 1 3 2
並根據該組進行匯總:
rowsum(wt$mass[match(names(gr), wt$set)], gr, reorder = FALSE)
# [,1]
#8 0.64699646
#11 0.06325088
#6 0.28975265
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.