在rxSummary中計數不重復

Question

我想在.xdf文件中按var1 count var2分組的不同值，

我嘗試過這樣的事情

 myFun <- function(dataList) {
    UniqueLevel <<- unique(c(UniqueLevel, dataList$var2))
    SumUniqueLevel <<- length(UniqueLevel)
    return(NULL)
    }

rxSummary(formula = ~ var1,
data = "DefModelo2.xdf",
transformFunc = myFun,
transformObjects = list(UniqueLevel = NULL),
removeZeroCounts = F)

先感謝您

編輯：

可能使用RevoPemaR是更快的方法

Answer 1

另一種選擇是使用rxCrossTabs 。 這樣，您就可以得到兩個因子的交叉表，並且您可以僅對非零條目進行計數，以根據其中一個因子確定唯一值。

censusWorkers <- file.path(rxGetOption("sampleDataDir"), "CensusWorkers.xdf")
censusXtabAge <- rxCrossTabs(~ F(age):F(wkswork1), data = censusWorkers, 
                             removeZeroCounts = FALSE, returnXtabs = TRUE)
apply(censusXtabAge != 0, MARGIN = 1, sum)

Answer 2

除以var1 ，然后為每個組計算var2的唯一值。 假設var1和var2是因素，如果不是，則必須首先運行rxFactors 。

xdflst <- rxSplit(xdf, splitByVars="var1", varsToKeep=c("var1", "var2"))

out <- rxExec(function(grp) {
        var1 <- head(grp, 1)$var1
        var2 <- rxDataStep(grp, varsToKeep="var2")$var2
        data.frame(var2, distinct=length(unique(var2)))
    },
    grp=rxElemArg(xdflst))

do.call(rbind, out)

或者，您可以獲取我的dplyrXdf軟件包並使用dplyr group_by / summarise管道（基本上完成上述所有操作，並在必要時包括轉換為因數）：

xdf %>% group_by(var1) %>%
    summarise(distinct=n_distinct(var2),
              .rxArgs=list(varsToKeep=c("var1", "var2")))

在rxSummary中計數不重復

問題描述

2 個解決方案

解決方案1
3 已采納 2016-03-31 20:44:55

解決方案2
1 2016-03-31 14:20:08

在rxSummary中計數不重復

問題描述

2 個解決方案

解決方案1 3 已采納 2016-03-31 20:44:55

解決方案2 1 2016-03-31 14:20:08

解決方案1
3 已采納 2016-03-31 20:44:55

解決方案2
1 2016-03-31 14:20:08