R：data.table比較行集

Question

我正在使用data.tables在R中工作。 我有以下data.table編碼一組坐標為A，B，C，D的點，以及索引編碼一組該點所屬的點。

library(data.table)

      A B C D set
   1: 0 0 0 0   1
   2: 1 0 1 0   2
   3: 1 1 1 0   2
   4: 0 1 0 0   2
   5: 1 0 1 1   2
   6: 0 1 0 0   3
   7: 1 1 0 0   3
   8: 0 0 1 0   4
   9: 1 0 1 0   4
  10: 0 1 0 1   4
  11: 0 0 0 0   5
  12: 1 0 0 0   5
  13: 1 1 1 0   5
  14: 1 1 1 1   5

dt = setDT(structure(list(A = c(0L, 1L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 
0L, 1L, 1L, 1L), B = c(0L, 0L, 1L, 1L, 0L, 1L, 1L, 0L, 0L, 1L, 
0L, 0L, 1L, 1L), C = c(0L, 1L, 1L, 0L, 1L, 0L, 0L, 1L, 1L, 0L, 
0L, 0L, 1L, 1L), D = c(0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 1L, 
0L, 0L, 0L, 1L), set = c(1L, 2L, 2L, 2L, 2L, 3L, 3L, 4L, 4L, 
4L, 5L, 5L, 5L, 5L)), .Names = c("A", "B", "C", "D", "set"), row.names = c(NA, 
-14L), class = "data.frame"))

我有另一個表編碼，例如每個集合的概率。

   set       mass
1:   1 0.27809187
2:   2 0.02614841
3:   3 0.36890459
4:   4 0.28975265
5:   5 0.03710247

wt = setDT(structure(list(set = 1:5, mass = c(0.27809187, 0.02614841, 0.36890459, 
0.28975265, 0.03710247)), .Names = c("set", "mass"), row.names = c(NA, 
-5L), class = "data.frame"))

我想要一個程序來創建子空間（例如C，D）的投影。 （請注意，在這種情況下，原始點1,4,6,7,11,12是重合的，集合1和3在此子空間中以及集合2和5中是相同的。

unique(dt[,c("C","D", "set")])
>   C D set
 1: 0 0   1
 2: 1 0   2
 3: 0 0   2
 4: 1 1   2
 5: 0 0   3
 6: 1 0   4
 7: 0 1   4
 8: 0 0   5
 9: 1 0   5
10: 1 1   5

並確定相同的集合，僅保留唯一的集合並求和相應的質量。 即在這種情況下：

>   C D set
 1: 0 0   1
 2: 1 0   2
 3: 0 0   2
 4: 1 1   2
 5: 1 0   4
 6: 0 1   4

   set       mass
1:   1 0.6469965 % set 1 + set 3
2:   2 0.06325088 % set 2 + set 5
3:   4 0.36890459

感謝您的想法。

Answer 1

一個比較笨拙的選項：為每個集合創建一個唯一的字符串，然后在其上分組。

coords = c("C", "D")
gDT = setorder(unique(dt[,c(coords, "set"), with=FALSE]))[,
  .(s = paste(do.call(paste, c(.SD, .(sep="_"))), collapse="."))
, by=set, .SDcols = coords][, 
  g := .GRP
, by=s][]

#    set           s g
# 1:   1         0_0 1
# 2:   2 0_0.1_0.1_1 2
# 3:   3         0_0 1
# 4:   5 0_0.1_0.1_1 2
# 5:   4     0_1.1_0 3

gDT[wt, on=.(set), mass := i.mass ]
gDT[, .(set = first(set), mass = sum(mass)), by=g]

#    g set       mass
# 1: 1   1 0.64699646
# 2: 2   2 0.06325088
# 3: 3   4 0.28975265

評論

您可以通過在最后一行中的[, g := NULL][]上鏈接來擺脫g 。
setorder只是對數據進行排序，以便唯一字符串在相同的集合集中顯示相同。
可以對分組的first和sum運算進行優化，如您所見，是否將verbose = TRUE添加到最后一行，例如gDT[, .(set = first(set), mass = sum(mass)), by=g, verbose=TRUE] 。

Answer 2

在概念上與Frank相似，我們可以將每個集合的二進制值映射到x * 2 ^ ((length(x) - 1):0)的十進制數。 同樣，對於“ C”和“ D”子集，我們得到：

coords = c("C", "D")
d = data.frame(set = dt$set, 
           val = Reduce("+", Map("*", list(dt$C, dt$D), 2 ^ ((length(coords) - 1):0))))
d

然后，我們可以按照相同的想法將相同的集合分組：

tab = table(d$val, d$set) > 0L ## `table(d) > 0` to ignore the duplicates
gr = colSums(tab * (2 ^ ((nrow(tab) - 1):0)))
gr
# 1  2  3  4  5 
# 8 11  8  6 11

## another (pre-edit) alternative with unnecessary overhead
#gr = cutree(hclust(dist(table(d) > 0L)), h = 0)
#gr                        
#1 2 3 4 5 
#1 2 1 3 2

並根據該組進行匯總：

rowsum(wt$mass[match(names(gr), wt$set)], gr, reorder = FALSE)
#         [,1]
#8  0.64699646
#11 0.06325088
#6  0.28975265

R：data.table比較行集

問題描述

2 個解決方案

解決方案1
2 2016-12-15 14:29:04

解決方案2
2 已采納 2016-12-15 15:22:41

R：data.table比較行集

問題描述

2 個解決方案

解決方案1 2 2016-12-15 14:29:04

解決方案2 2 已采納 2016-12-15 15:22:41

解決方案1
2 2016-12-15 14:29:04

解決方案2
2 已采納 2016-12-15 15:22:41